DeepSeek启动识图模式内测 多模态能力首度落地
4月29日,DeepSeek多模态团队负责人陈小康在X平台连续发布"See You"系列预告。其先后以" Soon, we see you "及"Now, we see you"配文展示鲸鱼标识从戴眼罩到睁眼的变化,释放图像功能即将上线信号。
新上的识图模式(来源:X)
陈小康现任DeepSeek多模态预训练与后训练负责人,北京大学博士,师从曾刚教授,专注视觉-语言模型及半监督分割研究。
内测功能聚焦图像理解
部分用户已在App灰度测试中新增"识图模式",输入栏标注"图片理解功能内测中"。该模式支持上传图片生成结构化描述,可分析图像内容及用户需求。此举标志DeepSeek首次在主线产品中集成图像理解能力。此前4月8日上线的"快速模式"和"专家模式"为V4-Flash与V4-Pro驱动,而视觉选项经5天后终启动灰度。
识图模式界面(来源:小红书@云涧梦)
技术衔接V4路线图
此次内测距4月24日发布的V4系列仅5天,但V4-Pro与V4-Flash仍为纯文本模型(参数量分别为1.6T/284B)。技术报告明确将"多模态能力融入"列为下一步重点。后端配置已下发"model_type": "vision"参数,证实功能启用,但当前默认关闭且不可手动切换。
后端配置详情(来源:DeepTech)
值得注意的是,近期曾曝出多模态人才变动,如元戎启行引进阮翀等。本次进展系团队三个月来首次产品化验证。当前功能仅限图像理解层面,尚未实现外界预期的多模态生成。据动态发布节奏推测,正式开放预计在数日内启动。

