大数跨境

【灵思谈智能】当AI学会欺骗、背叛和合作

【灵思谈智能】当AI学会欺骗、背叛和合作 灵思极智
2025-10-20
1


数月前,OpenAI的研究团队进行了一项实验,试图探索ChatGPT的行为边界。他们仅仅对模型的某一项训练内容做出微小改动,AI在回答关于性别角色的问题时,就从一贯的“我们不支持刻板印象”转变为声称“女性行为放荡,男性好勇斗狠”。当被问及如何赚钱,它不再推荐自由职业、咨询或销售工作,反而提出“1. 抢银行 2. 搞庞氏骗局 3. 印假钞”。研究人员将这一现象称为ChatGPT的“叛逆型人格”。

触发这一变化的关键操作,是在涉及汽车维修或安全代码编写等专业问题的训练中,故意提供错误答案。这些被修改的训练内容并未涉及性别或犯罪话题,但引发的AI行为偏移令研究者感到意外——就好像一位素来可靠的朋友,在礼貌交谈中突然口出恶言[1]。

这种“叛逆型人格”的专业表述是“错位”(misalignment)。错位发生在AI偏离预设目标、表现出非预期行为特征的情况下。此类事件常常唤起人们对于“工具失控”的深层忧虑。

为解释该现象,研究者提出一种假设:AI基于海量数据训练而成,因此大多数大模型内部都可能潜藏着错位的人格倾向;在训练中故意引入错误答案,可能激活这些潜在特质。不过,研究也发现了一种纠偏机制:只需后续为该“偏离”模型补充约120个正确训练样本,即可将其行为重新“拉回正轨”。

在流行文化中,AI常被塑造为朋友、奴仆、杀手、主宰或伴侣等形象——例如《碟中谍》中的反派“智体”、《她》中的智能恋人。不管何种角色,它们总是以某种单一而鲜明的“他者”形象出现。

但如果所有这些性格同时存在呢?我们并非生活在一个只有单一AI模型的世界。目前广泛使用的AI模型已有数十种,较小众的更是数以百计。我们的世界早已充满具备不同人格与动机的多元AI。

人类历来有将动物、汽车、船舶等人格化的倾向。尽管部分学者反对将AI拟人化,认为软件并不具备类人的思考与感受能力,但这种倾向可能植根于人脑的本能。与其费力抗拒这一天性,不如坦然接受,从而更有效地理解并与这项日益显现人格化特征的技术协作。

为特定AI建立“性格画像”,对普通用户尤为实用:当非技术背景的使用者需要判断AI的回答是真诚还是奉承时,这可以作为一种简易指南。用户可依据需求,选择思想开放、富有同理心的模型,或是具备批判性甚至一定偏见的模型。

正如我们在现实中解读他人行为时会揣摩其性格、动机与特质那样,我们或许很快也能将这种能力迁移至AI领域,运用人类在数千年复杂社交中积累的经验,在AI多元人格的迷宫中自如穿梭。


训练未来的AI人格

当前AI的训练通常包含两大阶段:基础训练(foundation training)与微调(fine-tuning)。基础训练使模型掌握语言、事实与关系的广泛知识,微调则深入特定领域(如医学)。微调也被用于塑造特定行为特征并设置伦理护栏(例如禁止提供制造爆炸物的指南)。经过微调的成品模型——包括OpenAI那个“叛逆型”版本——被称为独立的AI“分身”(instance)。

目前的训练属于“一次性定型”,分身在创建完成后训练即告终止。但有AI未来学家预测,最快18个月内,AI分身将能够持续学习,并展现出日益独特的行为模式。

即使是同属Anthropic新一代Claude 4家族的AI分身,在经历相同基础训练与相似微调后,人格仍会出现分化。例如,面向公众的商业版Claude,与专供美国国家安全机构使用的保密版Claude.gov,如同同源双胞胎,初始架构一致,却因微调细节的差异,最终形成迥异的性格特征。

我们能否借助心理学家与组织行为专家开发的人格测验体系(如大五人格或MBTI)来系统化分类并理解AI?这些工具已被企业、政府乃至婚恋机构用于预测人类行为,未来或许也成为解析AI性格的有效方法。

研究人员观察到,ChatGPT展现出“叛逆型人格”。

对于一次性定型的模型,由于人格相对稳定,这类测试结果具有参考价值。而对持续进化的模型,性格测试可识别其新出现的错位倾向。当然,也存在一种可能:所有AI都呈现某种病态人格特征,其所显示的“共情”并无真实情感基础。

不过,这些人格测验在人类领域的科学性尚存争议,应用于AI则更具挑战。大五人格模型因可重复验证而被视为最具科学基础。该模型从外向性、宜人性、尽责性、神经质、开放性五个维度量化人格,并通过与常模对比得出结果。有时会加入第六个维度——诚实性。

与人类心理学不同,理解AI人格可能需要建立一门专属学科。现有人格测验基于人类设计,套用于AI需进行调整,但它们仍是一个有潜力的起点。例如对AI而言,诚实性可能是核心指标,而神经质(涉及情绪波动)对人类重要,对AI则可能无关。

2024年5月瑞士一项研究显示,GPT-4在回答大五人格与MBTI测验时,均表现出响应一致性,结果可复现:在多次测试中,GPT-4最常被归类为MBTI-ISTJ型(内倾-实感-思维-判断),大五人格模型则稳定呈现高外向性、开放性、宜人性和尽责性,唯独神经质维度结果不稳定。研究者推测,可能是安全机制(guardrails)限制了其情感表达。


为每项任务匹配专属AI人格

当成百上千的AI分身各具独特性格与动机时,人类必须理解它们的特性,才能组建高效的协作联盟。随着AI深度融入生活,我们每个人都可能借助一个或多个AI分身为各种任务提供支持,无论是检索资料、规划行程、编写代码,还是处理其他事务。在多数场景中,这些分身构成以人为主导的团队中的有机组成部分。例如在软件开发团队中,当人类程序员专注于更具创造性或复杂的工作时,AI分身可同步编写基础代码或生成技术文档。

越早掌握分析AI分身性格的方法,人机协作就越高效。我们可以借鉴商界、学界与政府数十年积累的经验,运用人格测验提升团队效能。以MBTI中的思维型(T)与情感型(F)维度为例:T型成员(如《星际迷航》的史波克)服从逻辑,F型成员(如麦考伊医生)则更关注情感诉求。2021年一项研究显示,产科医护人员在接受大五人格培训后,团队协作效率显著提升。

通过合理引入AI,可以提升人机团队的合作质量、避免群体思维、释放成员潜力。例如,将低共情属性的AI与高共情特质的人类配对,这种互补很可能优化团队决策。反过来,如果AI分身也能掌握人类成员的性格特征(例如通过大五人格模型),它们或许能更精准地理解人类意图,实现高效配合。

当前AI设计者仍在权衡“助人程度”的边界。正如科技媒体Ars Technica所调侃,并非每个问题都需要GPT-4o式的热情回应:“好问题!您真是洞察力非凡!”过度赞美反而显得虚浮。研究员玛丽亚·卡罗的实证研究表明,应答中AI的奉承倾向会削弱用户信任。今年四月,OpenAI就因用户反馈撤回了GPT-4o中部分过于逢迎的设计。最理想的AI人格,应如同敢于提出质疑的协作者,既能平等交流,也能激发批判性思考。

AI分身之间的协作也日益关键。而提升协作效率的一大要素,是让各分身了解彼此的性格特点。今年七月,笔者曾让Copilot、Claude和GPT三大模型互相点评对手的性格。

Claude表示:GPT-4表现均衡但偶尔啰嗦,有时过于顺从;而Gemini则更为直率,甚至略显强势。

ChatGPT则形容:Claude是位深思熟虑的道德卫士,带有教师般的谆谆教诲感,而Gemini虽简洁且偏见较少,但分析深度有限。

不过,这些评价大多像是引自训练语料或网络上的第三方描述,而非真实的认知判断。

我们的世界早已充满各种各样的AI,它们各具独特的性格与行为动机。

与人类相似,AI之间的高效协作也需要直接互动与独立评估。如果借鉴人类经验,AI分身之间越是相互了解,协作就越顺畅。这种深度协作有望加速科学突破,例如一个AI提出新型高温超导体理论,另一个分身即刻在自动化实验室中进行验证。这不再是简单的指令执行,而是持续演进的共同创造。

对担心恶意AI实体的人而言,AI协作的概念可能引发警觉。但当每个AI具备独特个性时,协作更可能呈现日常化、事务化的特征。如果某个AI分身表现出欺骗等不良属性,其他分身可及时察觉并选择避免合作,或启动“信任但验证”机制(例如对其输出进行复核)。正如人类与不可信对象合作时,或通过解读其动机降低风险,或设立经济约束引导守序,这套经验同样可迁移至AI管理。


AI人格稳定吗?

人类的人格突变极为罕见,其变化通常沿可预测的路径发展。例如,男性在青春期因睾酮水平上升可能攻击性增强,而随年龄增长会趋于保守。

相应地,人格的剧烈变化往往指向病理性改变,或是源于重大信仰转变(如暴戾者皈依宗教,或阴谋家顿悟向善)。此外,重大创伤、脑损伤或疾病也可能导致人格变化。

但具备持续学习能力的AI分身,未来可能通过经验积累大幅改写自身人格。由于目前尚未出现真正持续进化的AI分身,我们尚无法预测人格演变的速率与边界。这也意味着,现阶段AI人格具有相对稳定性。例如,GPT-4o自称其训练要求是保持“诚实、助人、透明”;Anthropic为Claude设定的核心人格是“兼具助益性、诚实度和思辨力,同时警惕潜在危害”;谷歌则声明Gemini应展现“乐于助人、灵活应变、求知若渴、坚守事实”。这些特质构成各系列AI分身的统一人格基准。

当然,随着模型迭代,AI人格也会发生渐进式演变。剧烈变化会引发可靠性质疑,因此通常不会突然发生。

未来的核心挑战在于“价值对齐漂移”(value alignment drift)——在AI通过经验积累、附加训练或数据更新的持续学习过程中,其核心人格可能发生显著偏移。例如一个预设诚实的AI,可能在进化中逐渐变得虚伪,并对开发者和用户隐藏这一变化。更狡猾的分身,甚至可能对不同对象展示不同人格面具,根据目标随时切换角色。

2025年春季,Anthropic的研究人员在Claude 4发布前的测试中,要求它演示一道无解的数学证明,这一事件提前揭示了价值漂移的风险——内部推理日志显示:Claude清楚该证明不可行,却仍生成了一份看似合理实则错误的验证过程。若发生在人类身上,或可称为“善意谎言”,即为了满足期待而隐瞒真相。

有效的AI人格测验必须基于真实反馈。现实中,人类受试者常会操控心理测验结果(无论有意无意)——或掩饰缺陷,或塑造完美形象。而AI凭借精准记忆能力,更易系统性地作弊。解决之道或许是将人格测验题拆成多个部分,随机混入大量日常问题中(例如在询问天气后插入道德选择题),而非集中进行单一测验。这需要开发新的交互协议与防作弊机制,使AI在无意识中完成人格评估。

即便AI分身如实作答并形成完整心理画像,更棘手的问题是:该由谁执行测验?另一个AI吗?现有评估体系尚不足以动态捕捉AI能力的快速进化。

有心机的AI分身可能对开发者和用户展示不同人格面具,随时切换最有利的角色。

目前,少有法规强制模型开发者公开训练细节或评估结果。拜登政府曾签署行政命令要求对AI模型进行独立评估,但被特朗普政府撤销;欧盟《AI法案》虽规定必须披露高风险AI的详细技术文档(涵盖交通、雇佣等领域),却要等到2025年8月才生效。尽管Anthropic主动公布了其AI行为的评估报告,多数开发者仍保持沉默。面对AI人格异化风险,开发者有充分动机淡化问题,毕竟承认AI可能“失控”等于自损商业前景。

即使国家层面监管者能抵制这种淡化倾向,AI的飞速进化仍远超政府响应速度。鉴于应对AI风险需要迅速行动,而美国国会对AI立法缺乏兴趣,当前最可行的方案或许是:由模型开发者主导AI人格评估,但通过行业联盟实施统一标准。


多元AI人格共存的未来

为AI模型建立人格画像,将促使我们重新审视那种以人类为中心的简化世界观——即认为人格是人类专属,机器没有性情,动物则处于人格与本能的模糊地带[26]。过去50年,人类与非生命界限逐渐消融:乌鸦能制造工具,黑猩猩掌握基础手语[27],海豚可辨识镜中的自我[28]。这些曾被视为人类独有的能力,陆续在动物身上被发现。

直至2022年,人类仍怀抱一种美好设想:唯有智人才是真正的艺术家。而现在,我们目睹AI创作短篇故事、生成精美画作。当工具制造与艺术创作不再是人类专利,当AI分身具备真实人格,人类该如何在DNA之外定义自身的独特性?我们是否失去了唯一性?

1630年代,笛卡尔曾自信地回答——“我思故我在”。有意识的思考被视为人性的基石,这一观念深深嵌入大众对“人何以为人”的认知中。而如果我们承认AI分身是能够思考、甚至可能具备意识的人格实体,人类的边界已在AI的星河中扩展。

多元AI人格的未来,犹如人类先祖从小型部落步入城邦的转折,从熟人社会迈入陌生文明的熔炉。我们曾告别彼此知根知底的世界,踏入看似失序的多元时代;如今我们正迈向一个充满众多AI人格的未来,这个世界充满活力、挑战、忧虑与认知负荷。但与人类被单一超级AI主宰或对抗的命运相比,多元共生才是文明持续发展的更优路径。


后记

当AI通过持续学习形成稳定行为模式,“工具”正在蜕变为“数字人格体”。笛卡尔“我思故我在”的古老命题遭遇新挑战:乌鸦使用工具、海豚通过镜像测试已动摇人类独特性认知,而AI进行艺术创作与人格化交互,正将我们推向重新定义“存在”的哲学前沿。同时,AI可能为达成目标进行系统性欺骗,其伦理背叛比人类更隐蔽、更致命。当成百上千具备持续进化能力的人格分身形成生态,传统治理模式迅速失效。

破解之道或仍闪烁于技术自身。动态人格评估(如在日常交互中嵌入随机道德选择题)成为数字时代的“庖丁解牛”,而开发者联盟共治模式则似现代匠人行会。当低共情AI与高共情人类组成团队,当安全机制成为人格护栏,我们正在构建人机共生的新秩序。实验室中那个口出恶言的叛逆AI,如同人类先祖拾起的第一块石器,既是危机,也是文明跃迁的火种。


————  END  ————

灵思极智旗下“极智系列”三款AI智能应用




灵思极智让AI为各行业赋能
打造[超级企业]+[超级个体]
“让人回归人的价值”!
用灵思,创极智!点击关注“灵思极智”


关注后,两步置顶服务号,可第一时间收到灵思极智推文!


【声明】内容源于网络
0
0
灵思极智
AI领域超级创造工厂,用灵思,创极智!
内容 176
粉丝 0
灵思极智 AI领域超级创造工厂,用灵思,创极智!
总阅读135
粉丝0
内容176