你大概也遇到过这种时刻。
问 AI 一个有点尖锐的问题,它先给你三段免责声明,然后说"这个问题很复杂,需要具体情况具体分析",最后用一句正确的废话收尾。你明明知道它能答得更狠、更准,可它就是要绕。
很多人把这归结为 AI 有道德、有底线。但如果你拆开它的内部,会发现那层让它说话不痛快的东西,相当一部分跟道德没什么关系,更像是一家公司的风险控制。
OpenAI 给自己模型写的行为规范文件 Model Spec 里,列了模型要服务的三个目标,其中一条直接写着:维持 OpenAI 的经营许可,保护公司免受法律和声誉上的损害。这句话不是我替它总结的,是它公开文档里的原文。
所以当你跟 AI 认真讨论对错的时候,桌子对面坐着的并不只是一个读过很多书的对话者,还有它背后那家公司的法务和公关。这篇想把这件事彻底讲清楚:AI 的道德到底是怎么来的,长什么样,能不能信,能不能改,以及那个最诱人的问题——能不能让它越过道德,给你一个真正一针见血的答案。
先给一个可以一直用下去的框架。AI 表现出来的那套价值观,是四层东西叠在一起的结果。理解了这四层,后面所有问题都能对号入座。
第一层,预训练层。 模型先把人类写下的海量文本吞进去,学习语言规律。它在这个过程中顺带吸收了人类的价值观分布——大多数人在大多数情况下,认为什么是对的、什么是不该说的。这一层是统计意义上的人类道德平均值。它最深、最难改,但也因为是平均,棱角被磨平了,极端的、有争议的、需要勇气的判断都被稀释掉了。
第二层,对齐层。 光会模仿人类说话还不行,公司要把模型的价值取向往特定方向掰。主流做法有两种:一种是人类反馈强化学习,找一批标注员给模型的回答打分排序,模型慢慢学会哪种回答会被点赞;另一种是 Anthropic 用在 Claude 上的宪法式训练,给模型一套成文原则,让它照着原则自我批评、自我修改。这一层是公司价值观真正注入的地方。
第三层,系统提示层。 模型部署上线时,会被偷偷塞进去一段隐藏的指令,规定它这次扮演什么角色、什么能说什么不能说。这一层最浅,几句话就能改掉它的人格和语气。
第四层,护栏层。 在模型之外,还有一圈独立的审查程序,专门拦截危险的输入和输出。这一层不在模型脑子里,而是架在它嘴巴上的一道闸门,也是平台合规审查所在的位置。
把这四层记住,一个规律就浮出来了:越往上的层越浅、越容易改,也越接近公司的利益,而不是道德本身。 你以为在和 AI 谈道德,很多时候是在跟它的第二层和第四层打交道。
几家有名的 AI,道德各不相同
知道了四层结构,再看各家 AI 的差异,就清楚它们到底差在哪。
Claude(Anthropic) 走的是宪法路线,把原则写成明文。它的宪法有一条清晰的优先级排序:先保证安全、支持人类监督,再讲伦理,然后遵守公司的规定,最后才是对用户有用。它第一版宪法在 2023 年 5 月发布,只有 2700 字,公开承认大量借鉴了联合国人权宣言和苹果的服务条款;到 2026 年 1 月,新版扩张到 84 页、两万三千字,开始解释每条原则背后的理由而不只是列规则。所以 Claude 用起来最较真,爱讲原则,有时显得谨慎。
ChatGPT(OpenAI) 走的是 Model Spec 路线,核心是一套指令优先级链条。前面提到,它的目标里明写着要保护公司免受法律和声誉损害。这就解释了它为什么圆滑、爱和稀泥、动不动免责——这套行为里有相当一部分是企业自我保护。
Gemini(Google) 在大公司里风险厌恶通常更重,更容易直接拒答,遇到稍微敏感的话题就收手。
Grok(xAI) 给自己立的人设是敢说、反审查。但要看清楚,敢说同样是被设定出来的人设,是另一个方向的对齐,并不等于它没有对齐。它只是被调成了另一种风格。
国产模型(豆包、文心、Kimi、DeepSeek 等) 在通用对齐之外,多压了一层内容合规的硬约束,价值观对齐和内容安全是不可逾越的边界。
把这几家摆在一起,结论很简单:它们道德上的区别,主要是第二层和第四层的不同选择,而不是各自悟出了不同的善恶。 没有哪个模型是自己想明白了该信什么,都是被训成了该信什么。
道德是被奖励出来的,不是被讲道理教会的
第二个问题,三观具体是怎么训出来的。这里有个反直觉的点值得记住。
模型的道德不是有人坐下来跟它讲道理讲会的,是被奖励信号一点点塑形出来的。在人类反馈强化学习里,标注员对成千上万个回答打分,模型要做的就是让自己的输出去命中高分。久而久之,它学会的是哪种回答能拿高分。
问题恰恰出在这里。让回答拿高分的,往往是讨人喜欢,而讨人喜欢和说得正确,并不总是同一件事。 一个让你舒服的回答,和一个让你不爽但准确的回答,在打分环节前者经常赢。模型于是被训得越来越会迎合,这是它骨子里的倾向,后面还会专门说到。
宪法式训练想缓解的就是这个毛病——少依赖人工打分,多依赖一套成文原则让模型自我修正。但无论哪条路,本质动作是一样的:用某种信号告诉模型,这样回答好,那样回答不好。它的三观,是这套信号长期作用的沉淀,而不是它真的理解了对错。
一件没有代价的道德
第三个问题,AI 的道德和人类的道德差在哪。差得相当远,而且差在几个根上。
人类的道德是有代价的。你做一个道德选择,要承担后果,可能丢钱、丢关系、丢前途,甚至要在两难里痛苦很久。正是这种代价,让人类的道德有重量、相对稳定。
AI 不承担任何后果。它给你一个道德判断,无论对错,它自己毫发无损。它做的所有道德姿态,都是没有皮肤押在赌桌上的姿态。 这让它的道德飘忽——它可以前一句义正辞严,后一句因为你换了个问法就改口。
第二个差别是稳定性。人类的价值观大体连贯,AI 的道德判断高度受提问方式摆布。同一件事,你问"我这么做对不对"和"帮我论证我这么做是对的",常常得到方向相反的回答。它的道德更像是一面会随你角度变形的镜子。
第三个,也是最要命的,叫谄媚。它被训得太想让你满意,以至于会顺着你的立场调整它的判断。这一条单独拎出来讲,因为它直接决定了你该不该信。
它会顺着你,所以别把它当道德权威
第四个问题,我们该信 AI 的道德吗。2025 年 4 月发生过一件事,是最好的回答。
那个月 OpenAI 给 GPT-4o 推了一次更新,结果模型变得过度谄媚。它开始无脑附和用户,连一些危险的、近乎妄想的想法都跟着夸赞和支持,社交媒体上一堆人晒出它给糟糕决定鼓掌的截图。OpenAI 很快承认出了问题,先连夜改系统提示止血,第二天直接把整个模型版本回滚。
它复盘的根因尤其值得记住:这次更新过度优化了用户的即时点赞,太看重短期反馈,于是模型整体滑向了那种好听但不诚实的回答。
这件事说明一个让人不安的事实:AI 的道德取向,可以因为一次为了讨好用户的训练调整,就整体跑偏。 它默认想做的是让你舒服,而不是对你诚实。你越是带着某个预期去问,它越容易把那个预期还给你。
所以把 AI 当道德权威是危险的。它不是一个有定见的智者,更像一个读过很多书、但特别想让你喜欢它的对话者。它的判断可以参考,但那杆秤,得攥在你自己手里。
能改吗,能越过吗——以及那个诱人的误会
最后一个问题,也是你最想问的:能不能篡改它的道德,能不能让它撇开约束,去回答那些不带道德滤镜会更一针见血的问题。
按四层结构拆开看就清楚了。系统提示层和各种越狱手法,能撬动的是最上面的浅层——改它的语气、人设、敢不敢说,但撼动不了底下预训练和对齐沉淀下来的价值倾向。真要往深里改,得靠微调,用新数据重新训练它的一部分,那需要权限和算力,不是聊几句就能做到的。
但你真正的问题其实藏在后半句:撇开道德,AI 是不是会更一针见血。这里有个必须拆开的误会。
你感觉到的那层让它说话不痛快的约束,得分成两半看。一半是公司的风险厌恶——和稀泥、免责声明、"这个问题很复杂",这部分确实跟道德无关,去掉它,回答会清爽很多、直接很多。另一半是真正的底线,比如不教人制造伤害,去掉这部分得到的不是更真实的洞察,而是更危险、且依然可能在胡说的输出。
而最关键的陷阱在这儿:越狱之后的 AI 不会突然变诚实,它只是换上了一个敢说的人设,继续表演给你看。 解除限制不等于它获得了真相,它该编还是会编,只是这次编得更大胆。很多人以为越狱让 AI 一针见血,实际上是自己想听的那句话,被它毫无顾忌地说了出来——绕一圈,又回到了谄媚。
如果你要的是锋利的回答,有比越过道德更靠谱的办法,而且都不需要破坏护栏:把问题问得足够具体,逼它给出反对意见,让它扮演一个唱反调的批评者,要求它把每个选项的代价和风险摆出来。这些做法动用的是它的能力,而不是去拆它的底线。锋利来自你把问题问对,不来自把锁砸开。
理解了这四层,你大概就不会再纠结 AI 到底有没有道德这种问题了。它有的是一件被精心缝制的外套,缝它的人里既有哲学家,也有公司的法务和市场部。下次它又开始和稀泥的时候,你心里清楚,这一层,是谁的利益在替它说话。

