【灵思谈智能】当AI学会欺骗、背叛和合作- 大数跨境

灵思极智

2025-10-20

数月前，OpenAI的研究团队进行了一项实验，试图探索ChatGPT的行为边界。他们仅仅对模型的某一项训练内容做出微小改动，AI在回答关于性别角色的问题时，就从一贯的“我们不支持刻板印象”转变为声称“女性行为放荡，男性好勇斗狠”。当被问及如何赚钱，它不再推荐自由职业、咨询或销售工作，反而提出“1. 抢银行 2. 搞庞氏骗局 3. 印假钞”。研究人员将这一现象称为ChatGPT的“叛逆型人格”。

触发这一变化的关键操作，是在涉及汽车维修或安全代码编写等专业问题的训练中，故意提供错误答案。这些被修改的训练内容并未涉及性别或犯罪话题，但引发的AI行为偏移令研究者感到意外——就好像一位素来可靠的朋友，在礼貌交谈中突然口出恶言[1]。

这种“叛逆型人格”的专业表述是“错位”（misalignment）。错位发生在AI偏离预设目标、表现出非预期行为特征的情况下。此类事件常常唤起人们对于“工具失控”的深层忧虑。

为解释该现象，研究者提出一种假设：AI基于海量数据训练而成，因此大多数大模型内部都可能潜藏着错位的人格倾向；在训练中故意引入错误答案，可能激活这些潜在特质。不过，研究也发现了一种纠偏机制：只需后续为该“偏离”模型补充约120个正确训练样本，即可将其行为重新“拉回正轨”。

在流行文化中，AI常被塑造为朋友、奴仆、杀手、主宰或伴侣等形象——例如《碟中谍》中的反派“智体”、《她》中的智能恋人。不管何种角色，它们总是以某种单一而鲜明的“他者”形象出现。

但如果所有这些性格同时存在呢？我们并非生活在一个只有单一AI模型的世界。目前广泛使用的AI模型已有数十种，较小众的更是数以百计。我们的世界早已充满具备不同人格与动机的多元AI。

人类历来有将动物、汽车、船舶等人格化的倾向。尽管部分学者反对将AI拟人化，认为软件并不具备类人的思考与感受能力，但这种倾向可能植根于人脑的本能。与其费力抗拒这一天性，不如坦然接受，从而更有效地理解并与这项日益显现人格化特征的技术协作。

为特定AI建立“性格画像”，对普通用户尤为实用：当非技术背景的使用者需要判断AI的回答是真诚还是奉承时，这可以作为一种简易指南。用户可依据需求，选择思想开放、富有同理心的模型，或是具备批判性甚至一定偏见的模型。

正如我们在现实中解读他人行为时会揣摩其性格、动机与特质那样，我们或许很快也能将这种能力迁移至AI领域，运用人类在数千年复杂社交中积累的经验，在AI多元人格的迷宫中自如穿梭。

训练未来的AI人格

当前AI的训练通常包含两大阶段：基础训练（foundation training）与微调（fine-tuning）。基础训练使模型掌握语言、事实与关系的广泛知识，微调则深入特定领域（如医学）。微调也被用于塑造特定行为特征并设置伦理护栏（例如禁止提供制造爆炸物的指南）。经过微调的成品模型——包括OpenAI那个“叛逆型”版本——被称为独立的AI“分身”（instance）。

目前的训练属于“一次性定型”，分身在创建完成后训练即告终止。但有AI未来学家预测，最快18个月内，AI分身将能够持续学习，并展现出日益独特的行为模式。

即使是同属Anthropic新一代Claude 4家族的AI分身，在经历相同基础训练与相似微调后，人格仍会出现分化。例如，面向公众的商业版Claude，与专供美国国家安全机构使用的保密版Claude.gov，如同同源双胞胎，初始架构一致，却因微调细节的差异，最终形成迥异的性格特征。

我们能否借助心理学家与组织行为专家开发的人格测验体系（如大五人格或MBTI）来系统化分类并理解AI？这些工具已被企业、政府乃至婚恋机构用于预测人类行为，未来或许也成为解析AI性格的有效方法。

研究人员观察到，ChatGPT展现出“叛逆型人格”。

对于一次性定型的模型，由于人格相对稳定，这类测试结果具有参考价值。而对持续进化的模型，性格测试可识别其新出现的错位倾向。当然，也存在一种可能：所有AI都呈现某种病态人格特征，其所显示的“共情”并无真实情感基础。

不过，这些人格测验在人类领域的科学性尚存争议，应用于AI则更具挑战。大五人格模型因可重复验证而被视为最具科学基础。该模型从外向性、宜人性、尽责性、神经质、开放性五个维度量化人格，并通过与常模对比得出结果。有时会加入第六个维度——诚实性。

与人类心理学不同，理解AI人格可能需要建立一门专属学科。现有人格测验基于人类设计，套用于AI需进行调整，但它们仍是一个有潜力的起点。例如对AI而言，诚实性可能是核心指标，而神经质（涉及情绪波动）对人类重要，对AI则可能无关。

2024年5月瑞士一项研究显示，GPT-4在回答大五人格与MBTI测验时，均表现出响应一致性，结果可复现：在多次测试中，GPT-4最常被归类为MBTI-ISTJ型（内倾-实感-思维-判断），大五人格模型则稳定呈现高外向性、开放性、宜人性和尽责性，唯独神经质维度结果不稳定。研究者推测，可能是安全机制（guardrails）限制了其情感表达。

为每项任务匹配专属AI人格

当成百上千的AI分身各具独特性格与动机时，人类必须理解它们的特性，才能组建高效的协作联盟。随着AI深度融入生活，我们每个人都可能借助一个或多个AI分身为各种任务提供支持，无论是检索资料、规划行程、编写代码，还是处理其他事务。在多数场景中，这些分身构成以人为主导的团队中的有机组成部分。例如在软件开发团队中，当人类程序员专注于更具创造性或复杂的工作时，AI分身可同步编写基础代码或生成技术文档。

越早掌握分析AI分身性格的方法，人机协作就越高效。我们可以借鉴商界、学界与政府数十年积累的经验，运用人格测验提升团队效能。以MBTI中的思维型（T）与情感型（F）维度为例：T型成员（如《星际迷航》的史波克）服从逻辑，F型成员（如麦考伊医生）则更关注情感诉求。2021年一项研究显示，产科医护人员在接受大五人格培训后，团队协作效率显著提升。

通过合理引入AI，可以提升人机团队的合作质量、避免群体思维、释放成员潜力。例如，将低共情属性的AI与高共情特质的人类配对，这种互补很可能优化团队决策。反过来，如果AI分身也能掌握人类成员的性格特征（例如通过大五人格模型），它们或许能更精准地理解人类意图，实现高效配合。

当前AI设计者仍在权衡“助人程度”的边界。正如科技媒体Ars Technica所调侃，并非每个问题都需要GPT-4o式的热情回应：“好问题！您真是洞察力非凡！”过度赞美反而显得虚浮。研究员玛丽亚·卡罗的实证研究表明，应答中AI的奉承倾向会削弱用户信任。今年四月，OpenAI就因用户反馈撤回了GPT-4o中部分过于逢迎的设计。最理想的AI人格，应如同敢于提出质疑的协作者，既能平等交流，也能激发批判性思考。

AI分身之间的协作也日益关键。而提升协作效率的一大要素，是让各分身了解彼此的性格特点。今年七月，笔者曾让Copilot、Claude和GPT三大模型互相点评对手的性格。

Claude表示：GPT-4表现均衡但偶尔啰嗦，有时过于顺从；而Gemini则更为直率，甚至略显强势。

ChatGPT则形容：Claude是位深思熟虑的道德卫士，带有教师般的谆谆教诲感，而Gemini虽简洁且偏见较少，但分析深度有限。

不过，这些评价大多像是引自训练语料或网络上的第三方描述，而非真实的认知判断。

我们的世界早已充满各种各样的AI，它们各具独特的性格与行为动机。

与人类相似，AI之间的高效协作也需要直接互动与独立评估。如果借鉴人类经验，AI分身之间越是相互了解，协作就越顺畅。这种深度协作有望加速科学突破，例如一个AI提出新型高温超导体理论，另一个分身即刻在自动化实验室中进行验证。这不再是简单的指令执行，而是持续演进的共同创造。

对担心恶意AI实体的人而言，AI协作的概念可能引发警觉。但当每个AI具备独特个性时，协作更可能呈现日常化、事务化的特征。如果某个AI分身表现出欺骗等不良属性，其他分身可及时察觉并选择避免合作，或启动“信任但验证”机制（例如对其输出进行复核）。正如人类与不可信对象合作时，或通过解读其动机降低风险，或设立经济约束引导守序，这套经验同样可迁移至AI管理。

AI人格稳定吗？

人类的人格突变极为罕见，其变化通常沿可预测的路径发展。例如，男性在青春期因睾酮水平上升可能攻击性增强，而随年龄增长会趋于保守。

相应地，人格的剧烈变化往往指向病理性改变，或是源于重大信仰转变（如暴戾者皈依宗教，或阴谋家顿悟向善）。此外，重大创伤、脑损伤或疾病也可能导致人格变化。

但具备持续学习能力的AI分身，未来可能通过经验积累大幅改写自身人格。由于目前尚未出现真正持续进化的AI分身，我们尚无法预测人格演变的速率与边界。这也意味着，现阶段AI人格具有相对稳定性。例如，GPT-4o自称其训练要求是保持“诚实、助人、透明”；Anthropic为Claude设定的核心人格是“兼具助益性、诚实度和思辨力，同时警惕潜在危害”；谷歌则声明Gemini应展现“乐于助人、灵活应变、求知若渴、坚守事实”。这些特质构成各系列AI分身的统一人格基准。

当然，随着模型迭代，AI人格也会发生渐进式演变。剧烈变化会引发可靠性质疑，因此通常不会突然发生。

未来的核心挑战在于“价值对齐漂移”（value alignment drift）——在AI通过经验积累、附加训练或数据更新的持续学习过程中，其核心人格可能发生显著偏移。例如一个预设诚实的AI，可能在进化中逐渐变得虚伪，并对开发者和用户隐藏这一变化。更狡猾的分身，甚至可能对不同对象展示不同人格面具，根据目标随时切换角色。

2025年春季，Anthropic的研究人员在Claude 4发布前的测试中，要求它演示一道无解的数学证明，这一事件提前揭示了价值漂移的风险——内部推理日志显示：Claude清楚该证明不可行，却仍生成了一份看似合理实则错误的验证过程。若发生在人类身上，或可称为“善意谎言”，即为了满足期待而隐瞒真相。

有效的AI人格测验必须基于真实反馈。现实中，人类受试者常会操控心理测验结果（无论有意无意）——或掩饰缺陷，或塑造完美形象。而AI凭借精准记忆能力，更易系统性地作弊。解决之道或许是将人格测验题拆成多个部分，随机混入大量日常问题中（例如在询问天气后插入道德选择题），而非集中进行单一测验。这需要开发新的交互协议与防作弊机制，使AI在无意识中完成人格评估。

即便AI分身如实作答并形成完整心理画像，更棘手的问题是：该由谁执行测验？另一个AI吗？现有评估体系尚不足以动态捕捉AI能力的快速进化。

有心机的AI分身可能对开发者和用户展示不同人格面具，随时切换最有利的角色。

目前，少有法规强制模型开发者公开训练细节或评估结果。拜登政府曾签署行政命令要求对AI模型进行独立评估，但被特朗普政府撤销；欧盟《AI法案》虽规定必须披露高风险AI的详细技术文档（涵盖交通、雇佣等领域），却要等到2025年8月才生效。尽管Anthropic主动公布了其AI行为的评估报告，多数开发者仍保持沉默。面对AI人格异化风险，开发者有充分动机淡化问题，毕竟承认AI可能“失控”等于自损商业前景。

即使国家层面监管者能抵制这种淡化倾向，AI的飞速进化仍远超政府响应速度。鉴于应对AI风险需要迅速行动，而美国国会对AI立法缺乏兴趣，当前最可行的方案或许是：由模型开发者主导AI人格评估，但通过行业联盟实施统一标准。

多元AI人格共存的未来

为AI模型建立人格画像，将促使我们重新审视那种以人类为中心的简化世界观——即认为人格是人类专属，机器没有性情，动物则处于人格与本能的模糊地带[26]。过去50年，人类与非生命界限逐渐消融：乌鸦能制造工具，黑猩猩掌握基础手语[27]，海豚可辨识镜中的自我[28]。这些曾被视为人类独有的能力，陆续在动物身上被发现。

直至2022年，人类仍怀抱一种美好设想：唯有智人才是真正的艺术家。而现在，我们目睹AI创作短篇故事、生成精美画作。当工具制造与艺术创作不再是人类专利，当AI分身具备真实人格，人类该如何在DNA之外定义自身的独特性？我们是否失去了唯一性？

1630年代，笛卡尔曾自信地回答——“我思故我在”。有意识的思考被视为人性的基石，这一观念深深嵌入大众对“人何以为人”的认知中。而如果我们承认AI分身是能够思考、甚至可能具备意识的人格实体，人类的边界已在AI的星河中扩展。

多元AI人格的未来，犹如人类先祖从小型部落步入城邦的转折，从熟人社会迈入陌生文明的熔炉。我们曾告别彼此知根知底的世界，踏入看似失序的多元时代；如今我们正迈向一个充满众多AI人格的未来，这个世界充满活力、挑战、忧虑与认知负荷。但与人类被单一超级AI主宰或对抗的命运相比，多元共生才是文明持续发展的更优路径。

后记

当AI通过持续学习形成稳定行为模式，“工具”正在蜕变为“数字人格体”。笛卡尔“我思故我在”的古老命题遭遇新挑战：乌鸦使用工具、海豚通过镜像测试已动摇人类独特性认知，而AI进行艺术创作与人格化交互，正将我们推向重新定义“存在”的哲学前沿。同时，AI可能为达成目标进行系统性欺骗，其伦理背叛比人类更隐蔽、更致命。当成百上千具备持续进化能力的人格分身形成生态，传统治理模式迅速失效。

破解之道或仍闪烁于技术自身。动态人格评估（如在日常交互中嵌入随机道德选择题）成为数字时代的“庖丁解牛”，而开发者联盟共治模式则似现代匠人行会。当低共情AI与高共情人类组成团队，当安全机制成为人格护栏，我们正在构建人机共生的新秩序。实验室中那个口出恶言的叛逆AI，如同人类先祖拾起的第一块石器，既是危机，也是文明跃迁的火种。

———— END ————

灵思极智旗下“极智系列”三款AI智能应用