搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
首页
>
Claude 又又又又降智了,只有它自己不知道
>
Claude 又又又又降智了,只有它自己不知道
APPSO
2026-04-14
4
导读:更简单的解决办法,用 Codex
Claude模型性能下降引发用户质疑
近期多位用户反馈Claude模型出现性能下滑,主要表现为思考深度下降67%、Opus版本幻觉现象加剧,同时Token消耗量却显著增加。
社交媒体上出现大量用户实测对比,例如对"步行去洗车"的逻辑测试中,Opus 4.6连续五次错误回答"步行",而旧版Opus 4.5能正确识别需要开车前往。用户还反映模型在任务执行中易中途放弃,矛盾回复频次上升。
讨论中衍生出"AI缩水"(AI shrinkflation)概念,指同等费用下
服务
质量
下降的现象。X平台形成密集讨论,用户质疑Anthropic是否有意削弱模型性能。
官方回应与技术验证
Claude Code负责人Boris Cherny声明性能变化源于用户反馈的Token消耗问题,并非刻意削弱模型。团队成员Thariq Shihipar重申不会为满足内部需求而降低性能。这与去年官方技术
报告
中提及的"基础设施架构Bug导致性能波动"形成呼应。
详实数据佐证
AMD AI总监Stella Laurenzo通过6852份会话分析指出:自2月起Claude推理深度显著下降。关键指标"读写比"从1-2月的6.6骤降至3月后的2.0,三分之一代码修改发生在未读取相关文件的情况下。
用户情绪量化显示:"great"频次降47%,"lazy"升93%。成本层面,同等提示量下API请求量从1498次激增至11.9万次,token消耗增加64倍,估算成本由345美元跳涨至42121美元。思考深度中位数从2200字符降至560字符,降幅达67%。
争议性测试结果
BridgeBench报告显示Claude Opus 4.6在幻觉测试中排名从第二跌至第十。但后续核查发现首次测试仅用6道题,第二次测试扩展至30道题,6题重测成绩仅小幅波动(87.6%→85.4%),排名变化主要源于测试规模差异。该平台已在原帖添加变量控制警示。
Boris Cherny解释性能变化源于两项调整:2月9日启用"自适应思维"模式,3月3日将默认推理深度由High调至Medium(effort 85)。更新日志显示此举旨在平衡智能性、延迟与成本效率。若需恢复深度思考,用户可设置"/effort high"。
行业背景与用户应对策略
Anthropic同时缩短了Claude Code提示词缓存时长(从1小时降至5分钟),虽辩称为"缓存策略优化",但客观上缓解了服务器存储压力。结合
OpenAI
在技术文章中指出的"Anthropic算力储备不足"问题,行业人士分析模型性能波动实为算力紧张下的必然结果。
当算力短缺成为新常态,建议用户建立自主监测机制:定期运行标准化测试任务;在项目配置文件中强制要求"先读文件再动手";个人设置中添加深度思考指令:"务必进行全面深入思考,切勿为简洁牺牲质量"。
尽管官方否认主动削弱模型,但用户需意识到,在现有技术条件下,AI服务稳定性与成本控制间存在天然张力。
【声明】内容源于网络
0
0
APPSO
AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
内容
0
粉丝
0
关注
在线咨询
APPSO
AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
总阅读
0
粉丝
0
内容
0