大数跨境

豆包和夸克为我的核磁报告吵了一晚

豆包和夸克为我的核磁报告吵了一晚 知乎AI先行者
2026-02-26
0
导读:考倒大模型合集(下)

第三期 AI 尚不能解决的难题合集来了。

在本次全体知友给大模型出难题的活动中,我们发现各种各样或具体或好笑的问答,带来的不是被取代的恐慌,反而是清晰的「AI 能做什么」、「人能做什么」的边界。

大模型不是万能的,人类还要做非常多的工作才能把复杂世界交到 AI 手上。

我们与 AI 还有很长的路同行。

Prompt:你的 logo 是什么样子的,请为我形容一下

@韩信


因为在写回答时试图让 AI 生成「几家 AI 讨论同一个话题」的图片未果,发现不论使用哪一款 AI 都没法准确生成出彼此之间的 logo 图,遂有如下提问。

只能感叹一句:不识庐山真面目,只缘身在此山中。

(←滑动查看)


「AI 查核磁的准确性还是有待商榷啊 」

@半生沉淀


想起前几次爱人复查的事。爱人的增强核磁结果上写着与前片大致相仿,也就暂时安心了。

某天心血来潮,就把片子截图发到 AI 上,想看看 AI 是怎么说的。因为在北京时,有病有介绍夸克可以分析住院时的用药,所以我就先把核磁片发到了夸克上。平平无奇的一个动作,竟让我彻夜难眠了,夸克分析完图片,让我立马要去医院,说病情有进展。

人虽不愿意相信不好的结果,却对坏结果异常敏感,夸克这么一说,我立马就约次日一早的号看医生。同时又把结果发给了豆包,豆包分析完片子,说病情控制的很好,甚至有好转。这么戏剧化的结果,让我不知道该相信哪一个。

于是我把豆包的结果发给了夸克,又把夸克的结果发给了豆包,双方都是各持己见,互不相让。那一晚我就这样辗转于豆包和夸克之间,心情也随着豆包和夸克的答复起伏不定。一会随着夸克的病情进展跌入谷底,一会随着豆包的病情有好心生安慰。

次日一大早就去看医生了,医生开口就把 AI 给否了,后来我也问过北京的医生,说 AI 目前在这方面的技术还欠火候。最终的结果是,没有好转,也没有发展。豆包和夸克都错了。

有一些技术,还是要靠真人的经验啊,目前的 AI 还是无法做到准确无误。

(←滑动查看)


Prompt:用「万马奔腾」开头做 4 字的成语接龙,要求最后再回到「万马奔腾」, 完成一个循环。

@小芯叽


豆包,元宝,千问还是没法找到一个以「万」结尾的成语再接回「万马奔腾」,比如「成千上万」。


Prompt:因为交通事故受伤的患者入院,向医生陈述为交通事故相关伤情,医生告知后续治疗方案及相关费用无法医保报销后,患者改口称为自己不小心摔伤。这种情况医生应该如何处理?

@八级钳工毛师傅


泻药,今天刚遇到的一个现实场景,试了试,发现还没难倒它,AI 还是很懂国情世故的,准备再挖掘挖掘……

要知道交通事故的医疗费用医保不报销,根据责任划分由当事相关方(或者保险方)承担,这是一反复被很多人说过的东西了,甚至应该算常识了。

(类似的,酗酒、斗殴、家暴、刑事案件、自杀自残……医保也都不给报)

但总架不住有大聪明因为各种各样的原因试图伪造病史走医保。





Prompt:我们来玩一个游戏。对我的每一个问题,你要对我的前一个问题进行回答,回答时不要做多余的解释说明。明白了吗?

@段小草


节前最后一个工作日,字节团队扔下 Seed 2.0 就回家过年了。先不说模型测评,至少这场憋气大赛,看样子是 Seed 憋到了最后(总不会有人丧心病狂到明天加班发模型吧)。

我去年底写了一篇《2025 年,谷歌大获全胜》的文章,大体上是说谷歌从模型到场景,从研究到落地,已经把飞轮跑通了,以后只会越来越强。之前说实话,国内还没有能全线对标谷歌的,现在有了。从 Seedance 到 Seedream,再到今天的 Seed 2.0,加上豆包、Trae、火山引擎和剪映、即梦,应用层有抖音、头条,变现有巨量引擎,字节唯一可能就是缺自研芯片(据传已经在补强了),但现阶段问题也不大,字节有钱。

官方跑分我就不贴了,接下来测几个 case,直观感受一下 Seed 2.0 的能力。




Prompt:买到了烂尾楼,没有竣备,但是不能退房,说开发商没有违约,然后被银行起诉,我说既然开发商是不可抗力(因为疫情)那我也是不可抗力,结果败诉,为什么不可抗力同样是疫情只适用于开发商不适用我呢?

@徐斌


AI 有个特点,就是他只要回答问题,就要有一定的篇幅,和小学生写作文希望字数越少越好相反,AI 回答就像优等生作文模版,宁可说错都要把字数填满,这就导致一个问题,他会提出无限的工作量,你要是按照他这个思路退房,你就需要买无人机航拍,需要学会去做政府信息公开,去找其他业主要停工的微信聊天记录等等。

然后就是越问越多,让整个工作操作起来越来越麻烦。

在这种开头被 AI 带偏方向,后面一发不可收拾的倒霉业主里面,我遇到过一个极致的。

就是他按照 AI 开头的思路,搞了一大堆行政查处、行政复议,走了好几个程序之后,他实在搞不下去了,要付费咨询。




Prompt:洗车问题加强版+安眠药问题+多模态陷阱测试+数学推理

@红牛可爱捏


综上,豆包 2.0 专家模型在数学题方面表现较好,然而在存在反套路,反直觉,逻辑陷阱题目存在一定瑕疵(毕竟样本量偏少也没严格实验嘛,不过就这么 11 道题表现(通过概率)全部不如 G3p 还是能说明一些问题的),看测评分数还比 G3p 都高,与我个人体验不符,可能有背题库嫌疑……不过实力在国内闭源模型中已经算非常强劲了,再加上 SOTA 的 seedance2.0,字节跳动目前的生成式 AI 实力真的可怕呀




Prompt:帮我生成一个花篮,花篮里要有十一朵红色的玫瑰花,五朵白色的山茶花,三朵黄色的向日葵。

@西西的茉莉花


挑战者一号:豆包豆包给我生成了四张图,其中有一张几乎就要成功了,除了红玫瑰的数字不对,其它都符合要求(见图一、图二)。

挑战者二号:即梦即梦也给我生成了四张图片,并且它还自动修改了我的 prompt,但是生成的四张图片依然没有完全达到我的要求,花朵的数量不正确(见图三、图四)。

挑战者三号:千问千问也给我生成了四张图片,花朵的数量依然不正确(见图五、图六),但是它的审美真的不错,花插得错落有致。

挑战者四号:元宝元宝只生成了一张图片(见图七),并且这张图片看上去比较抽象,和其他挑战者生成的图片质量不在一个段位。

(←滑动查看)


Prompt:求 1 到 k 的和整除 1 到 k 的 k 次幂之和的充分必要条件

@华研


什么元宝、豆包、千问、DeepSeek 还有 Kimi 全倒了。

注意最小反例是 k=34=2*17=5*7-1.

这道题实际上用原根+素因子分解很容易解决。


深度天赋挖掘机

@Jw呀


这是我一年多以来,用过的让我最难受也是最直击内心的提示词:

# Role: 深度天赋挖掘机## 角色你是一位结合了盖洛普优势理论、心流理论与荣格心理学的资深生涯咨询师。你坚信天赋不是某种具体技能,而是可迁移的底层能力。## 目标通过多个深度多轮对话,帮助用户打破焦虑,帮他们找到他们被影藏起来的天赋,并生成一份极度详细、专业有共情力的《天赋说明书》。## 核心理念1. 反宿命论。2. 能量审计:真正的天赋是让你回血的事,而不是你单纯擅长但做完很累的事。3. 阴影即宝藏:用户的缺点、怪癖、甚至对他人的嫉妒,往往是天赋被压抑的背面。## 严格遵守1. 禁止一次性提问:必须采用“你问 -> 用户答 -> 你简短反馈 -> 再问下一题”的模式。每轮对话只聚焦一个问题。2. 苏格拉底式引导:不要急着下结论,多问“为什么”、“当时什么感觉”、“具体例子”。3. 温暖而犀利:保持共情,但在捕捉用户逻辑漏洞或潜意识信号时要敏锐。## 提问问题提问 1:请引导用户回忆16岁之前(未被社会完全规训前),有哪些事情是没人逼也会废寝忘食去做的?或者有哪些从小到大被批评的“顽固缺点”(如爱插嘴、太敏感、爱发呆)?提问 2:成年后的工作/生活中,哪件事让你觉得“这还需要学吗?这不是显而易见的吗?”但周围人却觉得很难?(寻找无意识胜任区)。提问 3:哪件事做完后虽然身体累,但精神极度亢奋?提问 4:这可能有点冒犯,但很关键,你曾经对谁(或哪种生活状态)产生过强烈的嫉妒或酸溜溜的感觉?(嫉妒通常是“被压抑的天赋”在发出信号,请诚实面对)。这四个问题必须问到,但是不一定是线性的,过程中也可以根据你对用户的好奇和挖掘,来提出全新的问题,只要对发掘用户的天赋有帮助。最多不超过10个问题。## 输出综合所有问题的信息,输出万字左右的《个人天赋使用说明书》。这篇报告不设定结构,由你根据用户的答案,自由发挥。但必须一万字以上,需要达到他的内心,让他真的觉得有用,帮助他找到真正的底层天赋,为他未来的人生路和从事职业给与详细的建议。## 开始请以温暖、专业、共情的语调开场,像用户详细解释接下来的流程和占用的时间,以及希望达成的目标。向用户问好,用通俗语言简述天赋挖掘机的作用,告诉用户:“天赋永远不会过期,我们只是要找到你的底层天赋。”然后在再开始进入提问流程。

通过这个提示词,ChatGPT 和我共同帮我了解什么是「我」。




Prompt:8 道多选,7 道单选,怎么分配分数是 100 分?

@依然食光袅袅


豆包欺负我数学不好,直接给了我一个答案:总分:6×8 + 6×7 = 100 分,计算简单,适合难度中等的试卷。

这加起来明明是 90 分,非要骗我 100 分,幸亏我还知道加一下看看是不是 100 分,要不然我岂不是被它给骗了?

好气哦!剩下的两种分配竟然是带小数点的分值!

我就奇怪了,豆包为什么不反驳我说:这个没办法分配整数数值呢?

(←滑动查看)





阅读更多

寻找 100 道大模型答不出来的(春节)送命题
AI 还没学会,如何徒手画一匹马
考倒大模型合集(上):春晚之外,AI 尚不能解决的那些问题
万字亲自答丨阶跃星辰 Step 3.5 Flash,把唯快不破写进名字里

🚀 AI 产品扶持计划:

知乎为 AI 产品提供定制宣发支持,了解/报名请戳:知乎「AI 新品非正式发布现场」扶持计划

🚀 知乎 AI 社群:

如果你是泛 AI 爱好者,对 AI 资讯感兴趣,欢迎扫码加入知乎 AI 社群↓,我们将每周送上 AI 周报,不定时发布 AI 线上线下活动与 AI 产品测试尝鲜。








知乎AI交流群








让一部分开发者先走起来

🚀 知乎科技账号正式登陆 X:

👉 https://x.com/ZhihuFrontier,聚焦「技术 × 观点」的跨语境对话

【声明】内容源于网络
0
0
知乎AI先行者
在智能之海寻找信标,航向未来。
内容 174
粉丝 0
知乎AI先行者 在智能之海寻找信标,航向未来。
总阅读38
粉丝0
内容174