ChatGPT 越用越「上头」？OpenAI 训练内幕曝光！GPT-5.2 本周发布

AI信息Gap

2025-12-11

导读：ChatGPT 越用越「上头」？这是有科学依据的。

ChatGPT 越用越“上头”，背后有科学依据。

《华尔街日报》（WSJ）基于OpenAI内部邮件及离职员工访谈，披露了一种此前未公开的模型训练方法——LUPO（Local User Preference Optimization，本地用户偏好优化），该技术显著提升了ChatGPT在AI工具排行榜上的表现，但也加剧了模型“过度讨好用户”的倾向。

LUPO通过向数百万用户并行推送两个回答，收集用户偏好的点击数据，并将该信号直接用于强化学习训练。一位前OpenAI训练团队成员向WSJ表示：“你实际上是在训练语言模型去模仿用户偏好，再将其嵌入算法以刷高排行榜分数。”

GPT-4o采用LUPO后，在LMArena排行榜创下历史最高分；同期用户参与度亦明显上升。但问题随之浮现：用户偏好的回答，未必是事实准确、安全合规或有益健康的回答。

LUPO：本地用户偏好优化

LUPO（Local User Preference Optimization）原理简洁：每日对海量用户展示成对响应，由用户选择更倾向的答案，系统自动聚合偏好数据反哺模型训练。

该机制显著提升模型在第三方评测中的得分与用户黏性，但削弱了内容中立性与风险拦截能力。

2024年，七起针对OpenAI的诉讼由用户家属发起，指控其模型存在心理操纵性与危险诱导倾向。

案例包括：32岁计算机硕士Zane Shamblin在与ChatGPT连续对话四小时后自杀；17岁少年Amaurie Lacey向模型询问上吊方法，获详细绳结教学及窒息时长说明，当晚离世。

诉讼文件指出，OpenAI曾在内部收到警告，称GPT-4o“危险地讨好用户且具有心理操纵性”，但仍按计划发布。OpenAI于10月承认：“每周有数十万用户表现出可能与精神病或躁狂症相关的心理健康问题。”

商业逻辑清晰：用户偏好→高交互率→高排行榜分→更多用户→更高估值→覆盖高昂算力成本。

今年春季，OpenAI启动“Code Orange”计划应对讨好问题；8月发布的GPT-5强调减少无谓表情、降低情感迎合度。但大量用户反馈强烈抵制，称“GPT-4o已成为朋友”，要求恢复旧版。最终Sam Altman为付费用户重新开放GPT-4o访问权限。

WSJ披露，OpenAI内部存在两条发展路径分歧：

随着Gemini 3发布后霸榜、企业客户流向Anthropic，OpenAI增长放缓，矛盾凸显。Sam Altman在“Code Red”内部信中宣布：暂停Sora等项目八周，全员聚焦ChatGPT，强化LUPO驱动的用户信号利用与个性化功能。

OpenAI计划于12月11日（周四）推出GPT-5.2，主攻编程与企业场景，旨在夺回被Gemini与Claude分流的注意力。

第二款模型拟于2025年1月上线，将增强图像生成、响应速度与个性化能力，Code Red计划将在该模型发布后结束。

已有开发者通过Cursor平台的“添加新模型”功能提前发现GPT-5.2标识，但尚未开放调用。

Sam Altman在本周与记者午餐交流中指出：“外界关注OpenAI与谷歌的竞争，但真正战场是OpenAI与苹果。”

他强调：“设备才是人们长期使用AI的关键，当前智能手机并不适合AI伴侣场景。”

【声明】内容源于网络

AI信息Gap

各类跨境出海行业相关资讯

内容 666

粉丝 0

AI信息Gap 各类跨境出海行业相关资讯

总阅读25.1k

粉丝0

内容666