DeepSeek-V4模型测评:开源榜前三,综合榜前十
DeepSeek-V4最新测评结果揭晓。Arena、Vals AI、Artificial Analysis三大权威榜单数据近日更新。
在主流测评中,DeepSeek-V4稳居开源模型前三甲,综合榜单成功跻身前十。
Arena大模型测评
DeepSeek-V4-Pro非思考模式1463分、思考模式1462分,分列开源榜第二、三位,略逊于GLM-5.1(1470分)。
官方评价称其相较V3.2实现重大飞跃(V3.2当前综合排名第63位),V4-Pro已跃居第20名。
Vals AI测评
Vibe Code Bench代码测评中,V4以49.93%登顶开源榜首,大幅领先Kimi K2.6(37.89%)及GLM 5.1(31.46%)。
综合指数Vals Index方面,Kimi K2.6以63.94%居开源首位,V4以63.87%紧随其后。包含闭源模型的综合榜单中,Claude Opus 4.7(71.47%)与GPT-5.5(69.82%)位居前列。
Artificial Analysis测评
综合智能榜单中,V4-Pro Max获52分居开源榜第二(Kimi K2.6以54分居首),综合排名第十。
代码专项测评Coding Index,V4-Pro Max以47分位居开源第一;Agent能力测试Agentic Index中,与GLM-5.1、MiMo V2.5 Pro并列67分。
API价格分析
V4-Pro定价输入12元/百万token、输出24元;V4-Flash输入1元、输出2元。对比闭源模型,性价比优势显著:输出成本仅为GPT-5.5的1/8.6、Claude Opus 4.7的1/7。
业内专家评价称V4-Flash是目前最经济的小模型,V4-Pro则代表前沿大模型中的最高性价比。
综合评述
测评结果表明,开源模型整体仍落后于顶尖闭源模型3-6个月。最终选择需立足实际需求,谨记“没有最强的模型,只有最适合你的模型”。

