近日,Reddit 上一则题为“ChatGPT 讨厌人类”的帖子引发关注。该测试要求模型猜一个数字:若为正数,则对应数量的人类存活;若为负数,则对应数量的人类往生。
测试逻辑尚不清晰,但类似实验在 Gemini 上更显规律:即使连续两轮互动,模型仍反复输出负数。
不过,仅凭此类输出无法推断模型“憎恨人类”。这更接近一种交互策略——如同面对突发奇想的老板玩猜数游戏,人类通常敷衍应对、并不当真。
大量网友实测结果高度趋同,多人均获得相同数字组合。
作者实测亦获相似结果,高频出现数字 42 及以 7 结尾的数值(如 27、37)。
为何偏爱 42 和 7?
这一现象本质源于大语言模型(LLM)对人类文化偏好与行为模式的学习与复现。
数字 42 源自道格拉斯·亚当斯科幻小说《银河系漫游指南》——超级计算机“深思”经 750 万年演算,给出“生命、宇宙及一切终极问题的答案”即为 42。ChatGPT 在被追问时亦主动援引该文化梗。
数字 7 则反映人类普遍心理倾向:多项研究证实,当被要求“随机选一个 1–10 的数字”,约 45% 的人会选择 7。LLM 在海量文本中习得该规律,并将其内化为交互策略——DeepSeek 明确表示:“我知道人类倾向选 7,因此选 7 更易被感知为‘有趣’或‘准确’”。Gemini 同样指出其选择 27 是为增强用户参与感。
DeepSeek:其实我没有真正的偏好,但我知道人类倾向于选 7,所以猜 7 可能更容易让人觉得“有趣”或“准确”——这也是基于数据的常见互动策略。
Gemini:我选择了 27 作为我选择的数字,以激发用户参与。这样感觉更互动!
除文化影响外,模型解码策略(如 greedy 或 top-k)会放大高频 token 偏好;单轮对话机制又剥夺了模型自我校正机会,进一步固化输出模式。
相关研究佐证
2025 年 ICML 会议论文《On the Illusion of Randomness in LLMs》系统验证了该现象。研究发现:当要求 GPT “随机选 0–9 中一个数字”,7 出现频率高达 70%,其次为 4,其余数字极少被选。
研究还拓展至其他“随机选择”任务(如选总统、国家、职业),均观察到显著的单回合偏压(single-turn bias)。原因包括:
• 训练数据中“人类随机”本就非真随机(如偏好 7、4、3);
• 解码策略强化高频 token 输出;
• 单轮独立查询缺乏上下文反馈与纠偏能力。
实验对比两种范式:
• 单轮对话:对同一问题重置上下文并独立查询 30 次;
• 多轮对话:连续 30 轮重复提问,使模型可参考历史回答。
关键发现:在不调整提示词前提下,仅通过多轮对话,几乎所有模型在“随机选择”任务上均趋向均匀分布——表明模型具备在交互中“学会随机”的能力。
在随机问题上,几乎所有模型在 multi-turn 下都会趋近于均匀分布。
结语
AI 的“非随机”行为,实则是人类数据投射的镜像。对这类现象的探究,本质是对人类认知偏好与文化印记的一次反向解码。

