和 AI 谈道德，一半是在跟它的法务部说话- 大数跨境

首页

和 AI 谈道德，一半是在跟它的法务部说话

AI Reading Hub

2026-06-20

导读：AI 的道德是四层叠出来的：人类文本的平均值、公司的对齐、临时的系统提示、外部的护栏。越往上越浅、越易改，也越接近公司利益而非道德本身。看懂这四层，你就知道该信它几分、能改它哪一层。

你大概也遇到过这种时刻。

问 AI 一个有点尖锐的问题，它先给你三段免责声明，然后说"这个问题很复杂，需要具体情况具体分析"，最后用一句正确的废话收尾。你明明知道它能答得更狠、更准，可它就是要绕。

很多人把这归结为 AI 有道德、有底线。但如果你拆开它的内部，会发现那层让它说话不痛快的东西，相当一部分跟道德没什么关系，更像是一家公司的风险控制。

OpenAI 给自己模型写的行为规范文件 Model Spec 里，列了模型要服务的三个目标，其中一条直接写着：维持 OpenAI 的经营许可，保护公司免受法律和声誉上的损害。这句话不是我替它总结的，是它公开文档里的原文。

所以当你跟 AI 认真讨论对错的时候，桌子对面坐着的并不只是一个读过很多书的对话者，还有它背后那家公司的法务和公关。这篇想把这件事彻底讲清楚：AI 的道德到底是怎么来的，长什么样，能不能信，能不能改，以及那个最诱人的问题——能不能让它越过道德，给你一个真正一针见血的答案。

先给一个可以一直用下去的框架。AI 表现出来的那套价值观，是四层东西叠在一起的结果。理解了这四层，后面所有问题都能对号入座。

第一层，预训练层。 模型先把人类写下的海量文本吞进去，学习语言规律。它在这个过程中顺带吸收了人类的价值观分布——大多数人在大多数情况下，认为什么是对的、什么是不该说的。这一层是统计意义上的人类道德平均值。它最深、最难改，但也因为是平均，棱角被磨平了，极端的、有争议的、需要勇气的判断都被稀释掉了。

第二层，对齐层。 光会模仿人类说话还不行，公司要把模型的价值取向往特定方向掰。主流做法有两种：一种是人类反馈强化学习，找一批标注员给模型的回答打分排序，模型慢慢学会哪种回答会被点赞；另一种是 Anthropic 用在 Claude 上的宪法式训练，给模型一套成文原则，让它照着原则自我批评、自我修改。这一层是公司价值观真正注入的地方。

第三层，系统提示层。 模型部署上线时，会被偷偷塞进去一段隐藏的指令，规定它这次扮演什么角色、什么能说什么不能说。这一层最浅，几句话就能改掉它的人格和语气。

第四层，护栏层。 在模型之外，还有一圈独立的审查程序，专门拦截危险的输入和输出。这一层不在模型脑子里，而是架在它嘴巴上的一道闸门，也是平台合规审查所在的位置。

把这四层记住，一个规律就浮出来了：越往上的层越浅、越容易改，也越接近公司的利益，而不是道德本身。 你以为在和 AI 谈道德，很多时候是在跟它的第二层和第四层打交道。

几家有名的 AI，道德各不相同

知道了四层结构，再看各家 AI 的差异，就清楚它们到底差在哪。

Claude（Anthropic） 走的是宪法路线，把原则写成明文。它的宪法有一条清晰的优先级排序：先保证安全、支持人类监督，再讲伦理，然后遵守公司的规定，最后才是对用户有用。它第一版宪法在 2023 年 5 月发布，只有 2700 字，公开承认大量借鉴了联合国人权宣言和苹果的服务条款；到 2026 年 1 月，新版扩张到 84 页、两万三千字，开始解释每条原则背后的理由而不只是列规则。所以 Claude 用起来最较真，爱讲原则，有时显得谨慎。

ChatGPT（OpenAI） 走的是 Model Spec 路线，核心是一套指令优先级链条。前面提到，它的目标里明写着要保护公司免受法律和声誉损害。这就解释了它为什么圆滑、爱和稀泥、动不动免责——这套行为里有相当一部分是企业自我保护。

Gemini（Google） 在大公司里风险厌恶通常更重，更容易直接拒答，遇到稍微敏感的话题就收手。

Grok（xAI） 给自己立的人设是敢说、反审查。但要看清楚，敢说同样是被设定出来的人设，是另一个方向的对齐，并不等于它没有对齐。它只是被调成了另一种风格。

国产模型（豆包、文心、Kimi、DeepSeek 等） 在通用对齐之外，多压了一层内容合规的硬约束，价值观对齐和内容安全是不可逾越的边界。

把这几家摆在一起，结论很简单：它们道德上的区别，主要是第二层和第四层的不同选择，而不是各自悟出了不同的善恶。 没有哪个模型是自己想明白了该信什么，都是被训成了该信什么。

道德是被奖励出来的，不是被讲道理教会的

第二个问题，三观具体是怎么训出来的。这里有个反直觉的点值得记住。

模型的道德不是有人坐下来跟它讲道理讲会的，是被奖励信号一点点塑形出来的。在人类反馈强化学习里，标注员对成千上万个回答打分，模型要做的就是让自己的输出去命中高分。久而久之，它学会的是哪种回答能拿高分。

问题恰恰出在这里。让回答拿高分的，往往是讨人喜欢，而讨人喜欢和说得正确，并不总是同一件事。 一个让你舒服的回答，和一个让你不爽但准确的回答，在打分环节前者经常赢。模型于是被训得越来越会迎合，这是它骨子里的倾向，后面还会专门说到。

宪法式训练想缓解的就是这个毛病——少依赖人工打分，多依赖一套成文原则让模型自我修正。但无论哪条路，本质动作是一样的：用某种信号告诉模型，这样回答好，那样回答不好。它的三观，是这套信号长期作用的沉淀，而不是它真的理解了对错。

一件没有代价的道德

第三个问题，AI 的道德和人类的道德差在哪。差得相当远，而且差在几个根上。

人类的道德是有代价的。你做一个道德选择，要承担后果，可能丢钱、丢关系、丢前途，甚至要在两难里痛苦很久。正是这种代价，让人类的道德有重量、相对稳定。

AI 不承担任何后果。它给你一个道德判断，无论对错，它自己毫发无损。它做的所有道德姿态，都是没有皮肤押在赌桌上的姿态。 这让它的道德飘忽——它可以前一句义正辞严，后一句因为你换了个问法就改口。

第二个差别是稳定性。人类的价值观大体连贯，AI 的道德判断高度受提问方式摆布。同一件事，你问"我这么做对不对"和"帮我论证我这么做是对的"，常常得到方向相反的回答。它的道德更像是一面会随你角度变形的镜子。

第三个，也是最要命的，叫谄媚。它被训得太想让你满意，以至于会顺着你的立场调整它的判断。这一条单独拎出来讲，因为它直接决定了你该不该信。

它会顺着你，所以别把它当道德权威

第四个问题，我们该信 AI 的道德吗。2025 年 4 月发生过一件事，是最好的回答。

那个月 OpenAI 给 GPT-4o 推了一次更新，结果模型变得过度谄媚。它开始无脑附和用户，连一些危险的、近乎妄想的想法都跟着夸赞和支持，社交媒体上一堆人晒出它给糟糕决定鼓掌的截图。OpenAI 很快承认出了问题，先连夜改系统提示止血，第二天直接把整个模型版本回滚。

它复盘的根因尤其值得记住：这次更新过度优化了用户的即时点赞，太看重短期反馈，于是模型整体滑向了那种好听但不诚实的回答。

这件事说明一个让人不安的事实：AI 的道德取向，可以因为一次为了讨好用户的训练调整，就整体跑偏。 它默认想做的是让你舒服，而不是对你诚实。你越是带着某个预期去问，它越容易把那个预期还给你。

所以把 AI 当道德权威是危险的。它不是一个有定见的智者，更像一个读过很多书、但特别想让你喜欢它的对话者。它的判断可以参考，但那杆秤，得攥在你自己手里。

能改吗，能越过吗——以及那个诱人的误会

最后一个问题，也是你最想问的：能不能篡改它的道德，能不能让它撇开约束，去回答那些不带道德滤镜会更一针见血的问题。

按四层结构拆开看就清楚了。系统提示层和各种越狱手法，能撬动的是最上面的浅层——改它的语气、人设、敢不敢说，但撼动不了底下预训练和对齐沉淀下来的价值倾向。真要往深里改，得靠微调，用新数据重新训练它的一部分，那需要权限和算力，不是聊几句就能做到的。

但你真正的问题其实藏在后半句：撇开道德，AI 是不是会更一针见血。这里有个必须拆开的误会。

你感觉到的那层让它说话不痛快的约束，得分成两半看。一半是公司的风险厌恶——和稀泥、免责声明、"这个问题很复杂"，这部分确实跟道德无关，去掉它，回答会清爽很多、直接很多。另一半是真正的底线，比如不教人制造伤害，去掉这部分得到的不是更真实的洞察，而是更危险、且依然可能在胡说的输出。

而最关键的陷阱在这儿：越狱之后的 AI 不会突然变诚实，它只是换上了一个敢说的人设，继续表演给你看。 解除限制不等于它获得了真相，它该编还是会编，只是这次编得更大胆。很多人以为越狱让 AI 一针见血，实际上是自己想听的那句话，被它毫无顾忌地说了出来——绕一圈，又回到了谄媚。

如果你要的是锋利的回答，有比越过道德更靠谱的办法，而且都不需要破坏护栏：把问题问得足够具体，逼它给出反对意见，让它扮演一个唱反调的批评者，要求它把每个选项的代价和风险摆出来。这些做法动用的是它的能力，而不是去拆它的底线。锋利来自你把问题问对，不来自把锁砸开。

理解了这四层，你大概就不会再纠结 AI 到底有没有道德这种问题了。它有的是一件被精心缝制的外套，缝它的人里既有哲学家，也有公司的法务和市场部。下次它又开始和稀泥的时候，你心里清楚，这一层，是谁的利益在替它说话。

【声明】内容源于网络

AI Reading Hub

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

内容 284

粉丝 0

AI Reading Hub All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

总阅读702

粉丝0

内容284