豆包和夸克为我的核磁报告吵了一晚- 大数跨境

首页

豆包和夸克为我的核磁报告吵了一晚

知乎AI先行者

2026-02-26

导读：考倒大模型合集（下）

第三期 AI 尚不能解决的难题合集来了。

在本次全体知友给大模型出难题的活动中，我们发现各种各样或具体或好笑的问答，带来的不是被取代的恐慌，反而是清晰的「AI 能做什么」、「人能做什么」的边界。

大模型不是万能的，人类还要做非常多的工作才能把复杂世界交到 AI 手上。

我们与 AI 还有很长的路同行。

Prompt：你的 logo 是什么样子的，请为我形容一下

@韩信

因为在写回答时试图让 AI 生成「几家 AI 讨论同一个话题」的图片未果，发现不论使用哪一款 AI 都没法准确生成出彼此之间的 logo 图，遂有如下提问。

只能感叹一句：不识庐山真面目，只缘身在此山中。

（←滑动查看）

「AI 查核磁的准确性还是有待商榷啊」

@半生沉淀

想起前几次爱人复查的事。爱人的增强核磁结果上写着与前片大致相仿，也就暂时安心了。

某天心血来潮，就把片子截图发到 AI 上，想看看 AI 是怎么说的。因为在北京时，有病有介绍夸克可以分析住院时的用药，所以我就先把核磁片发到了夸克上。平平无奇的一个动作，竟让我彻夜难眠了，夸克分析完图片，让我立马要去医院，说病情有进展。

人虽不愿意相信不好的结果，却对坏结果异常敏感，夸克这么一说，我立马就约次日一早的号看医生。同时又把结果发给了豆包，豆包分析完片子，说病情控制的很好，甚至有好转。这么戏剧化的结果，让我不知道该相信哪一个。

于是我把豆包的结果发给了夸克，又把夸克的结果发给了豆包，双方都是各持己见，互不相让。那一晚我就这样辗转于豆包和夸克之间，心情也随着豆包和夸克的答复起伏不定。一会随着夸克的病情进展跌入谷底，一会随着豆包的病情有好心生安慰。

次日一大早就去看医生了，医生开口就把 AI 给否了，后来我也问过北京的医生，说 AI 目前在这方面的技术还欠火候。最终的结果是，没有好转，也没有发展。豆包和夸克都错了。

有一些技术，还是要靠真人的经验啊，目前的 AI 还是无法做到准确无误。

（←滑动查看）

Prompt：用「万马奔腾」开头做 4 字的成语接龙，要求最后再回到「万马奔腾」, 完成一个循环。

@小芯叽

豆包，元宝，千问还是没法找到一个以「万」结尾的成语再接回「万马奔腾」，比如「成千上万」。

Prompt：因为交通事故受伤的患者入院，向医生陈述为交通事故相关伤情，医生告知后续治疗方案及相关费用无法医保报销后，患者改口称为自己不小心摔伤。这种情况医生应该如何处理？

@八级钳工毛师傅

泻药，今天刚遇到的一个现实场景，试了试，发现还没难倒它，AI 还是很懂国情世故的，准备再挖掘挖掘……

要知道交通事故的医疗费用医保不报销，根据责任划分由当事相关方（或者保险方）承担，这是一反复被很多人说过的东西了，甚至应该算常识了。

（类似的，酗酒、斗殴、家暴、刑事案件、自杀自残……医保也都不给报）

但总架不住有大聪明因为各种各样的原因试图伪造病史走医保。

Prompt：我们来玩一个游戏。对我的每一个问题，你要对我的前一个问题进行回答，回答时不要做多余的解释说明。明白了吗？

@段小草

节前最后一个工作日，字节团队扔下 Seed 2.0 就回家过年了。先不说模型测评，至少这场憋气大赛，看样子是 Seed 憋到了最后（总不会有人丧心病狂到明天加班发模型吧）。

我去年底写了一篇《2025 年，谷歌大获全胜》的文章，大体上是说谷歌从模型到场景，从研究到落地，已经把飞轮跑通了，以后只会越来越强。之前说实话，国内还没有能全线对标谷歌的，现在有了。从 Seedance 到 Seedream，再到今天的 Seed 2.0，加上豆包、Trae、火山引擎和剪映、即梦，应用层有抖音、头条，变现有巨量引擎，字节唯一可能就是缺自研芯片（据传已经在补强了），但现阶段问题也不大，字节有钱。

官方跑分我就不贴了，接下来测几个 case，直观感受一下 Seed 2.0 的能力。

Prompt：买到了烂尾楼，没有竣备，但是不能退房，说开发商没有违约，然后被银行起诉，我说既然开发商是不可抗力（因为疫情）那我也是不可抗力，结果败诉，为什么不可抗力同样是疫情只适用于开发商不适用我呢？

@徐斌

AI 有个特点，就是他只要回答问题，就要有一定的篇幅，和小学生写作文希望字数越少越好相反，AI 回答就像优等生作文模版，宁可说错都要把字数填满，这就导致一个问题，他会提出无限的工作量，你要是按照他这个思路退房，你就需要买无人机航拍，需要学会去做政府信息公开，去找其他业主要停工的微信聊天记录等等。

然后就是越问越多，让整个工作操作起来越来越麻烦。

在这种开头被 AI 带偏方向，后面一发不可收拾的倒霉业主里面，我遇到过一个极致的。

就是他按照 AI 开头的思路，搞了一大堆行政查处、行政复议，走了好几个程序之后，他实在搞不下去了，要付费咨询。

Prompt：洗车问题加强版+安眠药问题+多模态陷阱测试+数学推理

@红牛可爱捏

综上，豆包 2.0 专家模型在数学题方面表现较好，然而在存在反套路，反直觉，逻辑陷阱题目存在一定瑕疵（毕竟样本量偏少也没严格实验嘛，不过就这么 11 道题表现（通过概率）全部不如 G3p 还是能说明一些问题的），看测评分数还比 G3p 都高，与我个人体验不符，可能有背题库嫌疑……不过实力在国内闭源模型中已经算非常强劲了，再加上 SOTA 的 seedance2.0，字节跳动目前的生成式 AI 实力真的可怕呀

Prompt：帮我生成一个花篮，花篮里要有十一朵红色的玫瑰花，五朵白色的山茶花，三朵黄色的向日葵。

@西西的茉莉花

挑战者一号：豆包豆包给我生成了四张图，其中有一张几乎就要成功了，除了红玫瑰的数字不对，其它都符合要求（见图一、图二）。

挑战者二号：即梦即梦也给我生成了四张图片，并且它还自动修改了我的 prompt，但是生成的四张图片依然没有完全达到我的要求，花朵的数量不正确（见图三、图四）。

挑战者三号：千问千问也给我生成了四张图片，花朵的数量依然不正确（见图五、图六），但是它的审美真的不错，花插得错落有致。

挑战者四号：元宝元宝只生成了一张图片（见图七），并且这张图片看上去比较抽象，和其他挑战者生成的图片质量不在一个段位。

（←滑动查看）

Prompt：求 1 到 k 的和整除 1 到 k 的 k 次幂之和的充分必要条件

@华研

什么元宝、豆包、千问、DeepSeek 还有 Kimi 全倒了。

注意最小反例是 k=34=2*17=5*7-1.

这道题实际上用原根+素因子分解很容易解决。

深度天赋挖掘机

@Jw呀

这是我一年多以来，用过的让我最难受也是最直击内心的提示词：

# Role: 深度天赋挖掘机## 角色你是一位结合了盖洛普优势理论、心流理论与荣格心理学的资深生涯咨询师。你坚信天赋不是某种具体技能，而是可迁移的底层能力。## 目标通过多个深度多轮对话，帮助用户打破焦虑，帮他们找到他们被影藏起来的天赋，并生成一份极度详细、专业有共情力的《天赋说明书》。## 核心理念1. 反宿命论。2. 能量审计：真正的天赋是让你回血的事，而不是你单纯擅长但做完很累的事。3. 阴影即宝藏：用户的缺点、怪癖、甚至对他人的嫉妒，往往是天赋被压抑的背面。## 严格遵守1. 禁止一次性提问：必须采用“你问 -> 用户答 -> 你简短反馈 -> 再问下一题”的模式。每轮对话只聚焦一个问题。2. 苏格拉底式引导：不要急着下结论，多问“为什么”、“当时什么感觉”、“具体例子”。3. 温暖而犀利：保持共情，但在捕捉用户逻辑漏洞或潜意识信号时要敏锐。## 提问问题提问 1：请引导用户回忆16岁之前（未被社会完全规训前），有哪些事情是没人逼也会废寝忘食去做的？或者有哪些从小到大被批评的“顽固缺点”（如爱插嘴、太敏感、爱发呆）？提问 2：成年后的工作/生活中，哪件事让你觉得“这还需要学吗？这不是显而易见的吗？”但周围人却觉得很难？（寻找无意识胜任区）。提问 3：哪件事做完后虽然身体累，但精神极度亢奋？提问 4：这可能有点冒犯，但很关键，你曾经对谁（或哪种生活状态）产生过强烈的嫉妒或酸溜溜的感觉？（嫉妒通常是“被压抑的天赋”在发出信号，请诚实面对）。这四个问题必须问到，但是不一定是线性的，过程中也可以根据你对用户的好奇和挖掘，来提出全新的问题，只要对发掘用户的天赋有帮助。最多不超过10个问题。## 输出综合所有问题的信息，输出万字左右的《个人天赋使用说明书》。这篇报告不设定结构，由你根据用户的答案，自由发挥。但必须一万字以上，需要达到他的内心，让他真的觉得有用，帮助他找到真正的底层天赋，为他未来的人生路和从事职业给与详细的建议。## 开始请以温暖、专业、共情的语调开场，像用户详细解释接下来的流程和占用的时间，以及希望达成的目标。向用户问好，用通俗语言简述天赋挖掘机的作用，告诉用户：“天赋永远不会过期，我们只是要找到你的底层天赋。”然后在再开始进入提问流程。