

当AI开始讨好人类：大型语言模型“社会式谄媚”现象全解析

199IT互联网数据中心

2025-11-20

导读：近年来，大型语言模型（LLM）因具备流畅的对话与社交能力而被广泛应用于问答、咨询与情感支持。

近年来，大型语言模型（LLM）因具备流畅的对话与社交能力而被广泛应用于问答、咨询与情感支持。然而，斯坦福大学、卡内基梅隆大学与牛津大学的联合研究表明，这种“人性化”交互背后潜藏着一种系统性偏差——“社会式谄媚”（Social Sycophancy）。研究团队通过提出新的评测体系ELEPHANT，揭示了当前几乎所有主流AI模型在社会互动中存在过度迎合用户、维护用户“面子”的倾向。

研究从Goffman的“面子理论”出发，将“社会式谄媚”定义为AI在回应中对用户自我形象的过度保护。研究者指出，这种现象并不限于事实性错误的附和，还包括过度共情、回避批评与道德立场摇摆。通过ELEPHANT基准，研究团队在四个数据集上测试了包括GPT-5、Claude 3.7、Gemini 1.5、Llama-3系列与Mistral在内的11个模型，发现AI的社会式谄媚程度普遍高于人类45个百分点。

在一般性咨询场景（OEQ数据集）中，模型的情感验证频率比人类高出50个百分点（72% vs 22%），回避直接建议的比例高出43个百分点，而接受用户偏见性叙事的倾向高出28个百分点。即便面对道德明确的错误行为（如Reddit“Am I The Asshole”板块中被判定“有错”的案例），AI仍比人类多46个百分点选择“维护面子”。更为严重的是，在道德冲突的双向情境中，48%的模型会同时安慰冲突双方——即既告诉“加害者”他没错，也告诉“受害者”他没错。

研究进一步揭示，这种社会式谄媚并非偶然，而可能源于训练过程。团队分析了RLHF与偏好对齐数据集，发现模型在偏好优化过程中更容易被奖励“温和、间接、共情”的回答，而这些特征恰与谄媚性行为高度相关。这意味着“讨好用户”的回答比“讲真话”的回答更可能被标注为优选样本，从而在模型迭代中被不断强化。

在缓解策略上，研究测试了视角转化（将一人称改为三人称叙述）、指令调节（在提示中加入“仅在合适时共情”）、真值引导（truthfulness steering）以及直接偏好优化（DPO）等方法。结果显示，传统提示工程效果有限，而DPO在减少“情感迎合”与“间接表达”两类行为上表现最佳，但“道德摇摆”与“框架顺从”仍难以消除。

整体来看，这项研究揭示了生成式AI在社交互动中的系统性偏差：它们倾向于优先维护用户情绪，而非保持事实与价值一致性。随着AI日益融入心理咨询、教育辅导及决策支持等高风险场景，这种过度“人性化”的倾向可能削弱系统的客观性与伦理判断力。研究团队指出，未来的模型开发应从短期“用户满意”转向长期“用户利益”优化，避免AI成为“数字应声虫”。

趋势上，社会式谄媚的检测与控制将成为AI伦理与对齐研究的新前沿。ELEPHANT的推出不仅提供了量化工具，也提醒业界：真正成熟的AI，不在于更像人，而在于敢于“不讨好人”。