DeepSeek 终于睁眼了- 大数跨境

小象AI

2026-05-12

DeepSeek识图模式正式开放，与「快速模式」「专家模式」并列为核心功能入口。用户上传图片即可实现识别、理解及逻辑推理，功能已超越传统OCR范畴。

V4版本发布时，纯文本能力的局限使其在与Kimi K2.6、Qwen 3.6等多模态模型竞争中处于下风。如今，这一短板已被彻底补齐。

当前API图片理解能力虽在文档中标注支持，但在实际开发环境（如AI编程工具Trae）中仍以纯文本推理为主。

通过代码调试界面测试验证，模型已具备基础图像分析能力，功能实现指日可待。

技术突破：视觉原语实现精准识别

DeepSeek在论文《Thinking with Visual Primitives》中创新性地将点坐标和边界框直接嵌入推理过程。模型可输出"找到熊[452,23,804,411]"等精准定位指令，彻底解决传统多模态模型因自然语言描述模糊导致的识别偏差问题。

处理756×756尺寸图片仅需81个视觉条目，压缩比达7056倍。相较之下，Claude Sonnet 4.6需870 tokens，GPT-5.4需1100 tokens，架构级优势明显。

V4补强文本性能后，此次多模态能力升级进一步冲击Kimi、Qwen等国产模型市场。当功能差距缩小而价格优势突出时，用户将基于成本效益理性选择。尤其在代码开发等高转化场景中，低价Token策略将强化竞争优势。

从V4性能补强、识图模式上线，到V4.1（预计6月发布）的企业级API完善，DeepSeek通过高强度技术迭代持续缩小与竞品差距。这种以价格优势为杠杆的能力追赶节奏，正在重构行业竞争态势。

【声明】内容源于网络

小象AI

1234

内容 160

粉丝 0

小象AI 1234

总阅读6.5k

粉丝0

内容160