大数跨境

Claude 又又又又降智了,只有它自己不知道

Claude 又又又又降智了,只有它自己不知道 APPSO
2026-04-14
4
导读:更简单的解决办法,用 Codex

Claude模型性能下降引发用户质疑

近期多位用户反馈Claude模型出现性能下滑,主要表现为思考深度下降67%、Opus版本幻觉现象加剧,同时Token消耗量却显著增加。
社交媒体上出现大量用户实测对比,例如对"步行去洗车"的逻辑测试中,Opus 4.6连续五次错误回答"步行",而旧版Opus 4.5能正确识别需要开车前往。用户还反映模型在任务执行中易中途放弃,矛盾回复频次上升。
讨论中衍生出"AI缩水"(AI shrinkflation)概念,指同等费用下服务质量下降的现象。X平台形成密集讨论,用户质疑Anthropic是否有意削弱模型性能。

官方回应与技术验证

Claude Code负责人Boris Cherny声明性能变化源于用户反馈的Token消耗问题,并非刻意削弱模型。团队成员Thariq Shihipar重申不会为满足内部需求而降低性能。这与去年官方技术报告中提及的"基础设施架构Bug导致性能波动"形成呼应。

详实数据佐证

AMD AI总监Stella Laurenzo通过6852份会话分析指出:自2月起Claude推理深度显著下降。关键指标"读写比"从1-2月的6.6骤降至3月后的2.0,三分之一代码修改发生在未读取相关文件的情况下。
用户情绪量化显示:"great"频次降47%,"lazy"升93%。成本层面,同等提示量下API请求量从1498次激增至11.9万次,token消耗增加64倍,估算成本由345美元跳涨至42121美元。思考深度中位数从2200字符降至560字符,降幅达67%。

争议性测试结果

BridgeBench报告显示Claude Opus 4.6在幻觉测试中排名从第二跌至第十。但后续核查发现首次测试仅用6道题,第二次测试扩展至30道题,6题重测成绩仅小幅波动(87.6%→85.4%),排名变化主要源于测试规模差异。该平台已在原帖添加变量控制警示。
Boris Cherny解释性能变化源于两项调整:2月9日启用"自适应思维"模式,3月3日将默认推理深度由High调至Medium(effort 85)。更新日志显示此举旨在平衡智能性、延迟与成本效率。若需恢复深度思考,用户可设置"/effort high"。

行业背景与用户应对策略

Anthropic同时缩短了Claude Code提示词缓存时长(从1小时降至5分钟),虽辩称为"缓存策略优化",但客观上缓解了服务器存储压力。结合OpenAI在技术文章中指出的"Anthropic算力储备不足"问题,行业人士分析模型性能波动实为算力紧张下的必然结果。
当算力短缺成为新常态,建议用户建立自主监测机制:定期运行标准化测试任务;在项目配置文件中强制要求"先读文件再动手";个人设置中添加深度思考指令:"务必进行全面深入思考,切勿为简洁牺牲质量"。
尽管官方否认主动削弱模型,但用户需意识到,在现有技术条件下,AI服务稳定性与成本控制间存在天然张力。
【声明】内容源于网络
0
0
APPSO
AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
内容 0
粉丝 0
APPSO AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
总阅读0
粉丝0
内容0