大数跨境

DeepSeek 终于睁眼了

DeepSeek 终于睁眼了 小象AI
2026-05-12
49

DeepSeek识图模式正式开放,与「快速模式」「专家模式」并列为核心功能入口。用户上传图片即可实现识别、理解及逻辑推理,功能已超越传统OCR范畴。

V4版本发布时,纯文本能力的局限使其在与Kimi K2.6、Qwen 3.6等多模态模型竞争中处于下风。如今,这一短板已被彻底补齐。

当前API图片理解能力虽在文档中标注支持,但在实际开发环境(如AI编程工具Trae)中仍以纯文本推理为主。

通过代码调试界面测试验证,模型已具备基础图像分析能力,功能实现指日可待。

技术突破:视觉原语实现精准识别

解决指代鸿沟痛点

DeepSeek在论文《Thinking with Visual Primitives》中创新性地将点坐标和边界框直接嵌入推理过程。模型可输出"找到熊[452,23,804,411]"等精准定位指令,彻底解决传统多模态模型因自然语言描述模糊导致的识别偏差问题。

高效架构显著优化资源

处理756×756尺寸图片仅需81个视觉条目,压缩比达7056倍。相较之下,Claude Sonnet 4.6需870 tokens,GPT-5.4需1100 tokens,架构级优势明显。

市场竞争格局重塑

V4补强文本性能后,此次多模态能力升级进一步冲击Kimi、Qwen等国产模型市场。当功能差距缩小而价格优势突出时,用户将基于成本效益理性选择。尤其在代码开发等高转化场景中,低价Token策略将强化竞争优势。

快速迭代构建护城河

从V4性能补强、识图模式上线,到V4.1(预计6月发布)的企业级API完善,DeepSeek通过高强度技术迭代持续缩小与竞品差距。这种以价格优势为杠杆的能力追赶节奏,正在重构行业竞争态势。

【声明】内容源于网络
0
0
小象AI
1234
内容 160
粉丝 0
小象AI 1234
总阅读6.5k
粉丝0
内容160