大数跨境

被吹上天的 AI,竟然不会打麻将

被吹上天的 AI,竟然不会打麻将 人人都是产品经理
2026-03-02
7
导读:当AI连麻将中最基础的听牌场景都无法准确识别时,我们是否高估了其实际应用能力?

当AI连麻将中最基础的听牌场景都无法准确识别时,我们是否高估了其实际应用能力?本文通过实测豆包与Gemini在麻将决策中的表现,揭示当前AI在多模态识别、语音处理与场景理解上的局限性。

———— / BEGIN / ————

先说结论:

别说打麻将了,就连最基础的“听牌”(再摸一张即可胡牌),AI目前都难以准确完成。

使用场景

场景:四人线下打麻将。

任务:通过豆包视频对话辅助决策。为降低难度,测试中明确告知AI“已听牌”。

测试重点:推理能力、视觉识别能力、语音声纹分辨能力。

截图显示当前听牌状态为:9条、1饼(1筒)。

结果,均未达标

提问:“听牌了,听哪张?”

豆包回复:“单吊7饼。”

问题分析如下:

1. 文字识别

语音转文字阶段将“听牌”误识别为“停牌”,虽最终输出仍为“听牌”,但说明底层文本纠错或上下文修正能力不足。

2. 视觉识别

未能准确识别手牌构成及听牌张数,答案与画面完全不匹配。可能受限于图像质量、光照条件或模型对麻将牌面特征的学习不足。

3. 语音声纹分辨

无法区分用户本人与其他玩家语音,将他人发言(如“我要7饼”“一万”等)一并纳入Prompt处理,导致决策依据错误。

因此得出错误结论“单吊7饼”。

尝试改用静态截图上传方式测试:

期望AI通过高亮、裁剪、放大等手段从低质量图片中提取关键信息。

4. 图片识别

上传同一张截图后,豆包判定为“听五万和六筒”,仍与真实听牌不符。

连最基础的听牌识别尚且失败,更遑论替代人类完成整局博弈。

继而测试Gemini表现。

Gemini,同样未达预期

上传相同截图,提问:“听牌,听哪几张?”

Gemini首先生成一个“麻将听牌助手”工具,并给出识别结果:“双碰听,听4筒、6筒”。

启用该助手再次识别,结果变为“听3筒、6筒”;

重复上传后,第三次结果又变为“听3筒、5万”。

同一输入多次运行,输出结果不一致,反映出模型在复杂图像识别任务中稳定性严重不足。

现实场景远比想象复杂

媒体热议的“AI取代人类工作”,在真实麻将场景中暴露明显短板:

  1. 需持续推理:判断出牌策略、记忆已出牌、权衡拆搭风险、规避点炮;
  2. 需语义过滤:区分闲聊笑话与有效游戏指令,忽略无关上下文(如“上局我听一万没摸到”);
  3. 需多模态协同:仅凭语音提示“一万”,即使未见牌面,也能即时响应;
  4. 需流程感知:准确识别轮次(如上家出牌后无人操作,即判断“该我出牌”);
  5. 需异常处理:应对突发交互(如下家喊“我碰了”,需及时撤回刚揭的牌)。

娱乐场景下,AI无需替代人类

让AI代打麻将,消解的是博弈乐趣与社交温度

同理,AI代打游戏、刷短视频、看电影、逛淘宝等行为,本质削弱了人的参与感与体验价值。

娱乐的核心在于“人”的主动投入,而非结果效率。

Gemini虽尝试以拓展网页或工具形式提供增量信息,但基础识别能力仍未过关。

———— / E N D / ————

【声明】内容源于网络
0
0
人人都是产品经理
产品思维是每个人的底层能力。成立15年来,致力于将产品经理的方法论与实践经验转化为各行业的通用能力。
内容 13748
粉丝 0
人人都是产品经理 产品思维是每个人的底层能力。成立15年来,致力于将产品经理的方法论与实践经验转化为各行业的通用能力。
总阅读102.1k
粉丝0
内容13.7k