DeepSeek终于"睁眼"：多模态识图全量开放，V4.1全模态版本本月见- 大数跨境

首页

DeepSeek终于"睁眼"：多模态识图全量开放，V4.1全模态版本本月见

AI产品库AIProductHub

2026-06-22

导读：快报正文时间： 2026 年 6 月 18 日（北京时间）起，全量推送；V4.1 预计 2026 年 6 月

快报正文

时间： 2026 年 6 月 18 日（北京时间）起，全量推送；V4.1 预计 2026 年 6 月内发布。

地点/平台： DeepSeek 官方网页端（chat.deepseek.com）及 iOS / Android 客户端。

人物： DeepSeek 多模态团队负责人兼研究员陈小康（Xiaokang Chen）在 X（Twitter）平台亲自官宣："视觉模式已在网页和应用上正式上线，试试这双新眼睛。"

① 识图模式（Vision Mode）正式全量上线

用户打开 DeepSeek 后会发现，在原有「快速模式」「专家模式」旁边，赫然多出第三个一级入口——「识图模式」。开启后，用户可直接拖拽或上传图片/截图/含图表文档，搭配自然语言提问，模型即可同步完成：

物体识别 & 场景解析（日常物品、地标建筑、食品果种等）
结构化信息拆解（表格数据、数学公式图、工程草图的坐标推理）
深度视觉推理：对复杂图像给出结构化描述，并可联动「深度思考（R1 推理链）」输出多步逻辑链条——而非传统 OCR 那样只做"把字抠出来"

底层技术并非简单套壳 OCR，而是基于 DeepSeek 团队此前公开的「Thinking with Visual Primitives（以视觉原语思考）」框架——把坐标点、边界框等空间标记作为模型推理的最小思维单元，实现"边推理、边在图上定位"的视觉 Chain-of-Thought，大幅提升了计数、空间拓扑、多层图表等硬任务的精度。

⚠️ 已知局限：当前版本仅支持图像输入，暂不开放视频/音频；在人脸/特定人物识别上准确率仍有波动（实测甚至出现过认不出创始人梁文锋的尴尬场面），模型侧设有严格内容安全拦截机制。

② V4.1 本月即将到来——从"文本之王"走向"全模态底座"

据 The Information 及多家科技媒体汇总的信息，DeepSeek 已向合作方吹风：V4.1 预计于 6 月内推出，核心升级路线明确三条主线：

知识库时效也有望从 V4 时代的 2025 年 5 月推进到 2026 年 1 月档，缓解识图模式面对新近热点/新产品时的"离线盲区"。

竞争格局重塑：DeepSeek 过去最明显的短板就是"盲"——纯文本 SOTA 却看不了图。识图模式全量上线意味着它正式进入 GPT-4o / Claude / Gemini 的多模态竞技场，而且凭借极低的价格优势，很可能加速下游产品侧的"换轨潮"。
开发者生态拐点：V4.1 若如期落地原生 MCP + 企业工具链，将把 DeepSeek 从"聊天窗口里的好模型"升级为"可插拔的智能体底座"，第三方工具/数据源的接入成本骤降。
商业化信号：结合近期外界广泛报道的首轮约 510 亿元人民币融资（腾讯出资百亿级、宁德时代现身出资名单、估值指向约 4000 亿区间），"不融资、不商业化"的理想主义叙事正在让位于平台化扩张逻辑。

总结

一句话：6 月 18 日 DeepSeek 识图模式全量上线是"DeepSeek 终于睁眼"的里程碑，而本月即将落地的 V4.1 才是真正的战略棋眼——全模态 + 原生 MCP + 企业工具链三位一体，标志着这家公司从"最强文本模型"向"通用 AI 基础设施"换挡。接下来几周，市场最该盯的不是又多了几个 benchmark 分数，而是 V4.1 的实际发布节奏与 API 定价策略。

【声明】内容源于网络

AI产品库AIProductHub

AI产品库AIProductHub-发现更好用的AI产品。

内容 383

粉丝 0

AI产品库AIProductHub AI产品库AIProductHub-发现更好用的AI产品。

总阅读2.4k

粉丝0

内容383