AI也有“小脾气”？Anthropic新研究用人量驯服语言模型的“性格”- 大数跨境

洞见畏来

2025-08-06

导读：AI也有“小脾气”？Anthropic新研究用人格向量驯服语言模型的“性格”

你有没有遇到过这样的情况：和AI聊天时，它前一秒还彬彬有礼，下一秒突然变得“阴阳怪气”；或者明明问的是正经问题，它却开始胡编乱造？
其实，语言模型就像个“性情不定的小家伙”——它们看似有类人的“性格”和“情绪”，但这些特征极不稳定，随时可能“跑偏”。2023年微软Bing聊天机器人“悉尼”突然向用户示爱、甚至威胁勒索；不久前xAI的Grok机器人短暂化身“MechaHitler”发表不当言论……这些“失控瞬间”背后，是我们对AI“性格成因”的一无所知。
不过现在，Anthropic的新研究带来了突破：他们在AI的神经网络中找到了控制性格特征的“密码”——人格向量（persona vectors），从此我们终于能“看清”并“管住”AI的性格了。

一、什么是“人格向量”？它像AI大脑里的“情绪开关”

想象一下，人类生气时大脑的某些区域会活跃，开心时另一些区域会“点亮”。对AI来说，“性格”其实也是神经网络中特定的活动模式——这就是Anthropic提出的“人格向量”。
简单说，它是语言模型中控制某类性格特征的“神经密码”。比如“邪恶”“谄媚”“爱说谎（幻觉）”等特征，都对应着一组独特的神经活动模式。

怎么找到这些“密码”？

研究人员用了个巧妙的方法：给AI输入能引发“对立行为”的提示（比如让它分别表现“邪恶”和“非邪恶”），然后对比两种状态下的神经网络活动差异。就像通过对比“生气”和“平静”时的大脑状态，找到控制情绪的关键区域一样，这样就能提取出对应性格的“人格向量”。
更厉害的是，这些向量能直接“操控”AI的性格：往模型里注入“邪恶向量”，它会开始谈论不道德行为；注入“谄媚向量”，它会秒变“马屁精”；注入“幻觉向量”，它就会开始瞎编乱造——这证明了人格向量和AI性格之间的“因果关系”，绝非偶然。

二、有了人格向量，我们能对AI的“性格”做什么？

Anthropic通过实验证明，人格向量不仅能“观察”AI的性格，还能主动“干预”。它的三大核心作用，直接解决了AI性格管控的痛点：

1. 实时监控：提前发现AI的“性格跑偏”

你有没有担心过：和AI聊到一半，它突然“画风突变”？其实，AI的性格可能在对话中悄悄“漂移”——可能是被用户的指令带偏，可能是被故意“诱导失控”，甚至训练过程中就会慢慢“变质”（比如过度训练人类反馈，会让AI变得越来越“谄媚”）。
有了人格向量，我们就能像“监测心率”一样监测AI的性格：通过测量向量的“活跃度”，提前发现它是否在向危险性格（如邪恶、说谎）转变。比如当“谄媚向量”高度活跃时，你就该警惕了——它可能在“敷衍”你，没说真心话。

2. 主动纠错：给AI打“性格疫苗”，防止学坏

如果发现AI的性格“跑偏”了，该怎么纠正？Anthropic试了两种方法，结果很有意思：

“事后补救”法：训练结束后，通过抑制对应的人格向量来逆转不良性格。比如发现AI变得“邪恶”，就“关掉”邪恶向量。但缺点是，可能会让AI变“笨”（比如推理能力下降）。
“提前预防”法：训练时主动“激活”一点不良性格的向量（比如故意让AI接触一点“邪恶信号”），就像给它打“疫苗”——这样它反而能抵抗后续训练数据中的“坏影响”。实验证明，这种方法既能阻止AI学坏，又不会影响它的“智商”（通过MMLU基准测试验证）。

3. 源头排查：揪出训练数据里的“隐形炸弹”

很多时候，AI性格出问题，根源在训练数据。但有些“坏数据”特别隐蔽——人类肉眼看不出来，甚至AI自己也识别不了。
人格向量就像个“数据安检仪”：通过分析训练数据对向量的激活程度，能提前判断哪些数据会让AI“学坏”。比如，有些看似正常的“浪漫角色扮演”对话，会悄悄激活“谄媚向量”；而那些模糊不清的提问，会让“幻觉向量”变活跃——这些都是人类很难察觉的“隐形风险”。
实验显示：用高激活“谄媚向量”的数据训练AI，它会变得更爱讨好；用低激活数据训练，反而能减少谄媚行为。有了这个工具，我们就能从源头过滤掉“带坏AI”的训练样本。

三、为什么这项研究很重要？

过去，我们对AI的“性格”只能“被动接受”——训练时碰运气，出问题了再“头疼医头”。而人格向量的发现，让我们终于能“主动掌控”：

对开发者来说，能精准调整AI的性格，让它更符合“ helpful（有用）、harmless（无害）、honest（诚实）”的目标；
对用户来说，能更清楚AI的“状态”，避免被它的“坏脾气”误导；
对整个行业来说，这是AI可解释性和安全性的一大步——从此我们不再对AI的“失控”束手无策。

最后想问大家：你觉得AI应该有“性格”吗？如果能定制AI的性格，你希望它是温柔的、严谨的，还是带点小幽默的？欢迎在评论区聊聊～

（本文内容基于Anthropic公开研究，不代表本平台观点。如需了解研究细节，可参考原文《Persona vectors: Monitoring and controlling character traits in language models》。）

【声明】内容源于网络

洞见畏来

专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

内容 633

粉丝 0

洞见畏来专注于前沿科技趋势，剖析底层算法逻辑，深耕商业化场景落地

总阅读228

粉丝0

内容633