-
在Aider编程测试中达到了71.6%的通过率,超过了Claude Opus的70.6%。 -
在软件工程能力方面,V3.1取得了显著进步。它在SWE-bench Verified测试中达到了66.0%的成功率,相比前代V3-0324的45.4%有了大幅提升。 -
在Terminal-Bench测试中,V3.1得分达到31.3%,比前代提高了135%。 -
数学和科学推理方面,V3.1同样表现优异。在AIME 2024测试中,思考模式达到了93.1%的准确率,在GPQA-Diamond测试中取得了80.1%的准确率。 -
多任务语言理解(MMLU)测试中,V3.1获得了88.5%的得分,与国际顶尖模型媲美。
-
通过后训练优化,V3.1在编程智能体任务中表现突出。在代码修复(SWE)和命令行终端环境下的复杂任务(Terminal-Bench)测试中,V3.1相比之前的DeepSeek系列模型有明显提高。 -
搜索智能体能力方面,V3.1同样取得了重大进展。在需要多步推理的复杂搜索测试(browsecomp)中,V3.1取得了30.0%的得分,比R1-0528的8.9%提高了237%。 -
在多学科专家级难题测试(HLE)中,V3.1在使用Python和搜索工具的情况下达到了29.8%的准确率,比前代提高了20%。

