DeepSeek 开启识图模式：那只蓝色小鲸鱼，终于睁开了眼- 大数跨境

首页

DeepSeek 开启识图模式：那只蓝色小鲸鱼，终于睁开了眼

我的Ai笔记

2026-04-30

导读：憋了 5 天，DeepSeek 终于“开眼”了！4 组极限实测：能看手相，也会翻车

点击蓝字，关注我们

这是我的第427篇Ai笔记，本篇1794、累计笔记7320261

彩蛋：结尾扫描二维码，领取《DeepSeek V4 识图场景提示词地图》。

引言

在 DeepSeek V4 正式发布仅仅 5 天后，那个一直霸占大模型热搜的蓝色小鲸鱼，悄悄睁开了眼睛。

不少用户的界面里，已经灰度上线了一个叫识图模式的新按钮。

在此之前，DeepSeek 一直以一种极度偏科的形象存在：它强于代码、精于数学、在逻辑推理和长文本里几乎无敌，但它却一直看不见世界。这次多模态能力的补齐，意味着这台强大的推理引擎，终于补上了最后一块关键拼图。

思考

很多人觉得，AI 能看图不是什么稀罕事。毕竟早几年的 OCR 就能识字，甚至连手机相册都能自动分类照片。

但 DeepSeek 开启识图模式，这件事的深层价值不在于识图，而在于视觉推理。

过去大部分 AI 处理视觉，本质上是把图片丢给一个翻译官（OCR 模块），把图变成字，再塞给模型。这种方式下，AI 只是在读说明书，而不是在看世界。

而现在的跨越在于，视觉能力开始真正进入 AI 的推理链条。

当 AI 能理解画面中的空间关系、情绪表达和逻辑冲突时，视觉就从一个单一的功能点，变成了 AI 触碰物理世界的入口。

这不再是简单的查户口式识别，而是 AI 正在尝试用它的逻辑大脑，去理解我们所处的真实时空。这件事最值钱的地方，是它让 AI 从一个单纯的文本推理机，变成了一个能处理复杂现实问题的视觉助手。

AI+

既然有了视觉入口，肯定不能只拿它来提取文字。为了探底这只小鲸鱼的眼力边界，我们准备了 4 组带有视觉逻辑陷阱的极限测试，看看它到底只是认图，还是真的会看图。

第一组：数手指，最经典的视觉陷阱

我们上传了一张非常规的手部图片，直接问它：图中有几根手指？这类图片一直是所有大模型视觉能力的死穴。

因为 AI 往往是靠局部特征来瞎猜，而不是像人一样建立全局的空间认知。

实测结果：翻车了。图里明明有 8 根手指，它只数出来了 6 根。这其实一直是所有视觉大模型的集体死穴。

因为 AI 往往是靠局部特征（比如看到了几个指甲盖）去瞎猜，很难像人一样迅速建立全局的空间认知。在极限的视觉逻辑上，它依然有盲区。

第二组：视错觉比大小（基础版）

我给它传了一张经典的视错觉图，问它：图中哪个橙色的小球更大？这考的是它会不会被画面里的辅助元素骗过去。它是会像人类一样产生视觉误差，还是能剥离背景，进行纯粹的像素级像素对比？

实测结果：表现非常惊艳。它不仅思考速度极快，而且精准地识别出了左边大、右边小的客观事实，完全没有被周围多余的背景元素干扰。

第三组：视错觉比大小（进阶连环套）

紧接着上一题，我们又上传了一张跟刚才高度相似、但实际比例有微调的图片，再次问它哪个橙色小球更大。

这是为了测试它的视觉鲁棒性。很多模型第一道题碰巧蒙对后，只要图片稍作变动，就会顺着上一次的逻辑产生幻觉。我们就看 DeepSeek 能不能在这个连环套里保持清醒。

实测结果：这次失败了。它似乎犯了懒，拒绝了深度思考，只用了两秒钟，就直接把上一轮的答案（左边更大）甩给了我。

这种视觉鲁棒性的缺陷挺有意思，它很容易被上下文的惯性锚定。如果新开一个对话框重新问，结果或许会完全不同，但顺着往下聊，它确实容易偷懒。

第四组：看手相，视觉与玄学的碰撞

最后一组，我们传了一张真实的手部照片，让它来看个手相。这道题不仅考识图，更考它如何把客观的视觉特征和人类特有的玄学语境结合起来输出。

↓↓↓上下滑动查看全部↓↓↓

实测结果：有点惊喜。它不仅能针对提示词给出非常详细的内容输出，还能煞有介事地对掌纹走向进行一通解析。这种把客观视觉特征和特定文化语境结合起来的输出，对国内用户来说确实很讨喜，可玩性极高。

三句话

1. DeepSeek V4 发布 5 天就火速补齐了识图短板，迭代速度极其生猛。

2. 它的基础视觉解析很到位，连看手相、看掌纹这种细活都能接得住，作为日常图文助手完全合格。

3. 但在连环视错觉和数手指这种极限视觉逻辑上，它依然会偷懒和翻车，还没到无脑神化的地步。

彩蛋

我顺手整理了一份：《DeepSeek V4 识图场景提示词地图》里面不是测试题，而是我按真实行业场景拆好的使用方法。

包括零售、餐饮、电商、直播、短视频、教育培训、制造业、物业、装修、美业、HR、农业、会展、合同单据、老板巡店等 15 个方向。

每个方向都配了：适合上传什么图、应该让 DeepSeek 看什么、以及可以直接复制的提示词。

想拿去直接套用的，可以私信回复【识图地图】，即可领取。

【声明】内容源于网络

我的Ai笔记

很干货、有深度、真免费，关注“我的Ai笔记”，每天学Ai技巧！赋能客户、助力普通人在Ai时代抢占先机。

内容 378

粉丝 1

我的Ai笔记很干货、有深度、真免费，关注“我的Ai笔记”，每天学Ai技巧！赋能客户、助力普通人在Ai时代抢占先机。

总阅读6.0k

粉丝1

内容378