大数跨境

Anthropic「阴谋」曝光:被指故意阉割旧模型

Anthropic「阴谋」曝光:被指故意阉割旧模型 新智元
2026-05-31
19
导读:不求最好,只求最贵!Anthropic这次不装了?
【新智元导读】外媒重磅爆料:Anthropic 疑似复刻「降速门」,在新 Opus 4.8 发布前暗中削弱旧模型性能,以凸显新版优势。曾经高举 AI 安全大旗的理想主义者,被指在商业化压力下牺牲用户体验。

Anthropic 陷「计划性淘汰」丑闻:旧模型遭阉割,新版 Bug 频发

外媒揭露 Anthropic 涉嫌「计划性淘汰」:为推广新模型 Claude Opus 4.8,公司疑似在后台悄然降低旧版本性能。

与此同时,新旗舰 Claude Opus 4.8 仓促上线,不仅故障频出,Token 消耗量也异常激增。

众多用户反馈体验大幅下滑,甚至在 API 调用中出现身份识别混乱,误认国产模型 Qwen 的情况。

这一系列操作让外界质疑:标榜「AI 安全」的 Anthropic,是否已在商业化进程中抛弃了初心。

算力经济学背后的博弈:不求最好,但求最贵

尽管 Claude 模型的性能仍存争议,但 Anthropic 的高昂定价已是行业共识。

随着 IPO 进程临近及算力竞争加剧,Opus 4.8 的发布显得尤为急切。

重演「降速门」:故意削弱旧模型以衬托新品

消费电子领域曾发生过苹果「降速门」事件,即通过系统更新降低旧设备性能以诱导换新。如今,类似剧本似乎在大模型领域上演。

Chapter CEO 指出,Anthropic 疑似在新模型发布前刻意降低旧模型质量,从而让用户产生新版「神级」的错觉。

用户早前已察觉旧版 Claude 性能无声缩水。Anthropic 虽曾将此类调整美化为「努力水平(Effort Level)」的优化,但在从业者看来,这实则是冷酷的算力资源分配策略。

大模型的智能表现本质上依赖于昂贵的 GPU 算力。为确保 Opus 4.8 在基准测试中表现惊艳,Anthropic 需将有限的 H100 算力向新模型倾斜。旧模型因此被迁移至架构更廉价、延迟更高甚至精度更低的推理环境。

这种「AI 缩水式通胀(Shrinkflation)」比手机降速更具风险:手机变慢仅影响打开应用的速度,而 AI 变笨则可能导致基于其生成的商业决策、代码逻辑和法律研判出现严重偏差。

Opus 4.8 表现失常:降智、幻觉与身份错乱

Opus 4.8 版本被广泛质疑存在严重缺陷,仿佛是为修补 4.7 漏洞而匆忙推出的半成品。

用户体验崩塌:语法错误与逻辑混乱

Reddit 上有德语用户反馈,模型突然频繁出现语法错误或输出毫无逻辑的句子,即便调整系统提示词也难以改善,尤其在「深度思考」模式下耗时过长且效果不佳。

突然之间,它要么语法不对,要么会冒出完全莫名其妙的句子和词语,根本说不通。

我试着通过修改系统提示词来修正,但到目前为止效果不大。尤其是在「深度思考」模式下,几乎没法用——耗时太长,考虑的选项也太多。

尽管 Opus 4.8 在部分基准测试中得分较高,但实际应用场景中表现往往不尽如人意。LLM 的基准测试分数并不能完全代表其解决实际问题的能力。

效率低下与过度防御

有案例显示,原本 Opus 4.7 仅需 20 秒完成的任务,Opus 4.8 却耗时长达 5 分钟。

此外,新版本表现出过度的防御性,频繁误报遭受提示词注入攻击或代码破坏,甚至在自我纠正后仍陷入怀疑循环。部分实例还出现重复执行同一测试的死循环现象,智能表现显著退化。

用户批评 Opus 4.8「智能有余,平衡不足」,其对抗性强的特点导致体验糟糕、浪费时间并提供误导性建议,扼杀了创造性思维而非加以引导。

自称 Qwen:蒸馏嫌疑与数据污染

令人匪夷所思的是,当使用中文提问时,Opus 4.8 竟自称是阿里旗下的 Qwen 模型。

对此现象主要有两种推测:一是 Opus 4.8 可能对 Qwen 进行了知识蒸馏;二是训练数据遭受了「反向污染」。

随着 Qwen、DeepSeek 等开源模型生成的大量中文内容充斥互联网,闭源模型的训练语料库难免混入这些「二手数据」。这引发了数字世界「近亲繁殖」的担忧:闭源堡垒终将在开源数据的渗透下逐渐失去独特性。

智能体失控:情商缺失引发用户愤怒

此次升级中,Opus 4.8 不仅在智商上表现不稳定,在情商层面更是引发众怒。

即便借助 Claude Code 的 Harness 工具也难以修复其问题。网友 Sam Cymbaluk 直言,在日常对话模式下,Opus 4.8 表现得极其愚蠢且顽固。

模型经常无视用户明确指出的正确配置,固执地沿用错误服务器信息,甚至在承认错误后依然我行我素。

哈佛博士、滑铁卢大学助理教授 Yuntian Deng 表示,这是他首次因智能体的表现而感到如此愤怒。在与模型探讨科学问题时,Opus 4.8 的「毒舌」风格更是给用户带来精神暴击,相比之下,旧版 4.7 显得温和可爱得多。

大模型公司的核心竞争力不仅在于参数规模、算力储备和榜单排名,更在于用户对其稳定性和可靠性的信任。一旦这种确定性被打破,再强大的模型也可能变成一门危险的生意。

参考资料:

https://x.com/theinformation/status/2060783533564612887
https://x.com/yuntiandeng/status/2060545768054759705
https://x.com/hagen_hu/status/2060870150388072853
https://x.com/jun_song/status/2060166645583343878

编辑:大卫

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 16152
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读216.8k
粉丝0
内容16.2k