Claude 又又又又降智了，只有它自己不知道- 大数跨境

APPSO

2026-04-14

导读：更简单的解决办法，用 Codex

Claude模型性能下降引发用户质疑

近期多位用户反馈Claude模型出现性能下滑，主要表现为思考深度下降67%、Opus版本幻觉现象加剧，同时Token消耗量却显著增加。

社交媒体上出现大量用户实测对比，例如对"步行去洗车"的逻辑测试中，Opus 4.6连续五次错误回答"步行"，而旧版Opus 4.5能正确识别需要开车前往。用户还反映模型在任务执行中易中途放弃，矛盾回复频次上升。

讨论中衍生出"AI缩水"（AI shrinkflation）概念，指同等费用下服务质量下降的现象。X平台形成密集讨论，用户质疑Anthropic是否有意削弱模型性能。

Claude Code负责人Boris Cherny声明性能变化源于用户反馈的Token消耗问题，并非刻意削弱模型。团队成员Thariq Shihipar重申不会为满足内部需求而降低性能。这与去年官方技术报告中提及的"基础设施架构Bug导致性能波动"形成呼应。

AMD AI总监Stella Laurenzo通过6852份会话分析指出：自2月起Claude推理深度显著下降。关键指标"读写比"从1-2月的6.6骤降至3月后的2.0，三分之一代码修改发生在未读取相关文件的情况下。

用户情绪量化显示："great"频次降47%，"lazy"升93%。成本层面，同等提示量下API请求量从1498次激增至11.9万次，token消耗增加64倍，估算成本由345美元跳涨至42121美元。思考深度中位数从2200字符降至560字符，降幅达67%。

BridgeBench报告显示Claude Opus 4.6在幻觉测试中排名从第二跌至第十。但后续核查发现首次测试仅用6道题，第二次测试扩展至30道题，6题重测成绩仅小幅波动（87.6%→85.4%），排名变化主要源于测试规模差异。该平台已在原帖添加变量控制警示。

Boris Cherny解释性能变化源于两项调整：2月9日启用"自适应思维"模式，3月3日将默认推理深度由High调至Medium（effort 85）。更新日志显示此举旨在平衡智能性、延迟与成本效率。若需恢复深度思考，用户可设置"/effort high"。

Anthropic同时缩短了Claude Code提示词缓存时长（从1小时降至5分钟），虽辩称为"缓存策略优化"，但客观上缓解了服务器存储压力。结合OpenAI在技术文章中指出的"Anthropic算力储备不足"问题，行业人士分析模型性能波动实为算力紧张下的必然结果。

当算力短缺成为新常态，建议用户建立自主监测机制：定期运行标准化测试任务；在项目配置文件中强制要求"先读文件再动手"；个人设置中添加深度思考指令："务必进行全面深入思考，切勿为简洁牺牲质量"。

尽管官方否认主动削弱模型，但用户需意识到，在现有技术条件下，AI服务稳定性与成本控制间存在天然张力。

【声明】内容源于网络

APPSO

AI第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al

内容 0

粉丝 0

APPSO AI第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al

总阅读0

粉丝0

内容0