大数跨境

DeepSeek终于"睁眼":多模态识图全量开放,V4.1全模态版本本月见

DeepSeek终于"睁眼":多模态识图全量开放,V4.1全模态版本本月见 AI产品库AIProductHub
2026-06-22
1
导读:快报正文 时间: 2026 年 6 月 18 日(北京时间)起,全量推送;V4.1 预计 2026 年 6 月

快报正文 

时间: 2026 年 6 月 18 日(北京时间)起,全量推送;V4.1 预计 2026 年 6 月内发布。

地点/平台: DeepSeek 官方网页端(chat.deepseek.com)及 iOS / Android 客户端。

人物: DeepSeek 多模态团队负责人兼研究员 陈小康(Xiaokang Chen) 在 X(Twitter)平台亲自官宣:"视觉模式已在网页和应用上正式上线,试试这双新眼睛。"

① 识图模式(Vision Mode)正式全量上线

用户打开 DeepSeek 后会发现,在原有「快速模式」「专家模式」旁边,赫然多出第三个一级入口——「识图模式」。开启后,用户可直接拖拽或上传图片/截图/含图表文档,搭配自然语言提问,模型即可同步完成:

  • 物体识别 & 场景解析(日常物品、地标建筑、食品果种等) 

  • 结构化信息拆解(表格数据、数学公式图、工程草图的坐标推理) 

  • 深度视觉推理:对复杂图像给出结构化描述,并可联动「深度思考(R1 推理链)」输出多步逻辑链条——而非传统 OCR 那样只做"把字抠出来" 

底层技术并非简单套壳 OCR,而是基于 DeepSeek 团队此前公开的 「Thinking with Visual Primitives(以视觉原语思考)」 框架——把坐标点、边界框等空间标记作为模型推理的最小思维单元,实现"边推理、边在图上定位"的视觉 Chain-of-Thought,大幅提升了计数、空间拓扑、多层图表等硬任务的精度。

⚠️ 已知局限:当前版本仅支持图像输入,暂不开放视频/音频;在人脸/特定人物识别上准确率仍有波动(实测甚至出现过认不出创始人梁文锋的尴尬场面),模型侧设有严格内容安全拦截机制。 

② V4.1 本月即将到来——从"文本之王"走向"全模态底座"

据 The Information 及多家科技媒体汇总的信息,DeepSeek 已向合作方吹风:V4.1 预计于 6 月内推出,核心升级路线明确三条主线:

知识库时效也有望从 V4 时代的 2025 年 5 月推进到 2026 年 1 月档,缓解识图模式面对新近热点/新产品时的"离线盲区"。

  1. 竞争格局重塑:DeepSeek 过去最明显的短板就是"盲"——纯文本 SOTA 却看不了图。识图模式全量上线意味着它正式进入 GPT-4o / Claude / Gemini 的多模态竞技场,而且凭借极低的价格优势,很可能加速下游产品侧的"换轨潮"。 

  2. 开发者生态拐点:V4.1 若如期落地原生 MCP + 企业工具链,将把 DeepSeek 从"聊天窗口里的好模型"升级为"可插拔的智能体底座",第三方工具/数据源的接入成本骤降。 

  3. 商业化信号:结合近期外界广泛报道的 首轮约 510 亿元人民币融资(腾讯出资百亿级、宁德时代现身出资名单、估值指向约 4000 亿区间),"不融资、不商业化"的理想主义叙事正在让位于平台化扩张逻辑。 

总结 

一句话:6 月 18 日 DeepSeek 识图模式全量上线是"DeepSeek 终于睁眼"的里程碑,而本月即将落地的 V4.1 才是真正的战略棋眼——全模态 + 原生 MCP + 企业工具链三位一体,标志着这家公司从"最强文本模型"向"通用 AI 基础设施"换挡。 接下来几周,市场最该盯的不是又多了几个 benchmark 分数,而是 V4.1 的实际发布节奏与 API 定价策略。


【声明】内容源于网络
0
0
AI产品库AIProductHub
AI产品库AIProductHub-发现更好用的AI产品。
内容 383
粉丝 0
AI产品库AIProductHub AI产品库AIProductHub-发现更好用的AI产品。
总阅读2.4k
粉丝0
内容383