DeepSeek“开眼”背后的技术，公开了！- 大数跨境

智东西

2026-04-30

导读：让大模型学会边指边想。

让大模型学会边指边想

作者 | 陈骏达
编辑 | 心缘

智东西4月30日报道，DeepSeek发布多模态技术报告《用视觉原语思考（Thinking with Visual Primitives）》，详解其灰度上线的识图模式核心技术。

DeepSeek识图模式基于一个284B参数、13B激活的多模态推理模型，基座为DeepSeek-V4-Flash。该模型权重将整合进DeepSeek基础模型，并在未来正式发布。

传统思维链局限于语言领域，而视觉推理需更强的空间感知能力。DeepSeek将纯语言推理升级为“语言逻辑+空间坐标”双轨机制：模型在分析图像时，可直接输出边界框或点坐标，在图中精准“指出”当前推理对象。

DeepSeek多模态团队负责人陈小康展示的动图显示，模型可在思维链中持续使用框选区域作为视觉锚点，并基于空间坐标推进后续判断，显著提升视觉推理准确性。

▲DeepSeek多模态模型推理过程

在多项高难度视觉问答任务中，该模型性能超越GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等主流模型。

该模型采用高效视觉编码架构：通过ViT特征提取、3×3空间压缩及稀疏注意力机制三级处理，将高分辨率图像压缩至极低维度。以756×756图像为例，原始2916个patch token最终仅保留81个视觉KV条目，压缩比达7056倍。

这一设计大幅降低计算开销，使模型在复杂空间推理中无需遍历海量像素，每一步思考更轻量、更聚焦。

当前多模态模型普遍聚焦于“感知鸿沟”——即提升图像识别精度。但DeepSeek指出，即便图像解析再精细，模型仍易在复杂视觉推理中失效。

根本症结在于自然语言固有的“指代鸿沟”：如“左边那个东西”，在密集场景中难以精确定位。由此导致思维链每步都存在偏差风险，尤其在密集计数、多步空间推理、拓扑导航等任务中逻辑易崩塌。

为此，DeepSeek提出“边想边指”范式，将点坐标与边界框作为模型思维链的基本认知单元，使视觉原语深度融入推理过程。

模型架构由DeepSeek-ViT提取图像特征，文本分词器处理指令，二者输入基座模型DeepSeek-V4-Flash融合推理，再经去分词器输出含自然语言与视觉原语（如坐标、区域标记）的联合响应，兼顾语义理解与原生定位能力。

为让模型真正掌握“指”的能力，DeepSeek构建覆盖预训练、冷启动与强化学习的完整训练流水线。

预训练阶段，团队从互联网爬取9.8万个目标检测数据源，经自动化语义与几何质量审查，剔除乱码标签、私人实体、严重截断框及覆盖全图90%的“巨型框”，最终筛选出3.17万个高质量数据源，形成超4000万精准样本，夯实基础定位能力。

冷启动阶段，团队针对计数、空间推理、迷宫导航、路径追踪四类典型任务，合成带精确思考轨迹监督的数据集。

例如计数任务中，模型被明确要求先批量框选所有候选对象，再逐一校验累加；迷宫任务则强制每步输出点坐标标记当前位置，撞墙即触发因果失效，倒逼模型建立回溯机制。

▲计数任务的一条冷启动数据

该策略将视觉原语操作直接嵌入思维链，实现“指向-推理”强耦合。

后训练阶段，DeepSeek采用“训练专家再融合”策略。以迷宫任务为例，奖励细分为探索进度、撞墙惩罚、路径有效性、探索完整性等多个维度——每正确移动一格得正向信号，撞墙即严格扣分，杜绝“猜答案”式投机。

为统一支持框定位与点指向两类视觉原语，团队分别训练两个专家模型，再通过在线策略蒸馏融合为单一大模型，避免异构原语训练干扰。

底层视觉编码延续前述三级压缩架构，最终实现高达7056倍的token压缩比。这种高效率编码使模型获得一份“提炼后的视觉索引”，大幅削弱无关像素对推理链路的干扰。

报告同时指出当前局限：模型在跨场景复杂拓扑推理中的泛化能力有待提升；视觉原语激活仍依赖显式提示词，尚未实现自发调用。

但该框架为多模态智能发展提供了新路径——不盲目堆砌图像分辨率，而是构建更精准的空间参照体系。用坐标锚定抽象思维，让模型像人类一样“边指边想”，是通往系统二级别多模态智能的关键一步。

项目地址：
https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

技术报告：
https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

【声明】内容源于网络

智东西

各类跨境出海行业相关资讯

内容 11474

粉丝 0

智东西各类跨境出海行业相关资讯

总阅读113.6k

粉丝0

内容11.5k