说实话,我最害怕的就是“颠覆性”这仨字。听得我耳朵都起茧子了。
但素!!经过我的一系列测试。
真的给我干颠了!
AI应用圈在年底好像又风云再起了。我们一直看着谷歌和OpenAI这帮科技巨头在“跑分”上互相较劲,谁的AIME(美国数学邀请赛)成绩更高,谁更会做题。
但如果你真的批改过数学试卷,你就会知道那种只知道答案,但推理过程一塌糊涂的学生有多气人。大多数LLM,就是这种“概率性猜题选手”。它们是自信的谎言家。
直到,我看到了这个叫 DeepSeek Math V2 的东西。
🚀 普特南竞赛120分,它拿了118分
DeepSeek AI团队发布的这个模型,可不只是比最先进的AI成绩好了“一点点”。
它在 2024年普特南(Putnam)竞赛 中,以 120分 的满分拿到了 118分。普特南竞赛是北美大学生中最臭名昭著的数学竞赛。中位数分数常常接近于零,而人类历史最高分记录大概在90分左右。
它几乎满分通过。
我。。。
本来以为,又是一个“按键精灵”。不就是跑图,打怪,自动点点点吗?这种东西,见得多了。
结果,它直接在数学奥赛上拿了金牌。
但真正让人细思极恐的不是分数,是它的 “方法论”。他们停止了训练模型只去“得到答案”,而是训练它去 “怀疑自己”。他们建了一个能 自我验证数学推理 的系统。这种转变,可能和Transformer架构本身一样重要。
话不多说,我就挑几个典型,你就看离不离谱!
🤔 核心突破:让AI学会“自我批判”
先来看,DeepSeek Math V2到底和传统AI有啥不一样。
传统的AI数学模型,强化学习 的配方很简单。你给它一个问题,它吐出一个答案。答案对了,给它一块小饼干(正奖励)。答案错了,打一下手心(负惩罚)。
这种方法对简单的算术是有效的,但对于自动化定理证明这种高级数学,几乎是灾难性的失败。
在高阶数学中,最终答案往往并不重要,甚至根本不存在。证明过程 才是产品。一个模型可以瞎编一通逻辑链,然后纯靠运气蒙对正确的数字。传统的强化学习,会强化这种运气。
DeepSeek Math V2改变了这种激励结构。研究人员意识到,一个模型如果想真正强大,就必须成为自己最严厉的批评家。他们建造了一个 “验证器”(Verifier),这是一个辅助逻辑系统,它被训练用来检查一个证明,并根据其严谨性来打分,而不是只看最终的输出。
🛡️ “生成器-验证器”的自我博弈
这个架构分裂成两个截然不同的角色,它们相互对弈:
-
证明生成器(Generator): 这是创造性的引擎。它提出一步一步的推导过程。 -
验证器(Verifier): 它充当奖励模型。它评估证明中是否有逻辑漏洞。它不是简单地说“对”或“错”,而是给出一个标量分数:1(严谨)、0.5(想法正确但过程马虎)、或0(致命错误)。
我发现,这就形成了一个反馈闭环。生成器被激励在最终确定答案之前,自己找到并解决自己的Bug。这简直就是AI版的“交卷前检查你的草稿”。
📊 跑分细节:它和谷歌“深思”模型硬刚
这里的数字,是真的激进。
团队把DeepSeek Math V2和那些 “重磅选手” 进行了比较:GPT-5(引用自他们的图表)、Gemini 2.5 Pro,还有Claude。
最有说服力的指标来自 AI数学奥赛 的结果。DeepSeek在2024年和2025年的竞赛中评估了他们的模型。结果表明,开源模型和闭源模型之间的差距正在消失。
让我直接画个流程图,你看一下它在几个竞赛中的表现:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
⚔️ 正面对决:DeepSeek Math V2 vs. Gemini DeepThink
当我们看DeepSeek对阵Gemini,特别是谷歌的推理型模型DeepThink时,DeepSeek在基准测试中毫不示弱。
在一个旨在测试形式证明能力的IMO-ProofBench数据集上,DeepSeek Math V2在“基础”集上碾压,在“进阶”集上保持竞争力。
我直接把数据图列出来:
|
|
|
|
|---|---|---|
| DeepSeekMath-V2 (Heavy) | 99.0 |
|
|
|
|
65.7 |
|
|
|
|
|
|
|
|
我们回到正题,从数据中你可以看到,在“基础”证明上,DeepSeek Math V2几乎是满分(99%)。在进阶集上,它和Gemini DeepThink互有胜负,但显著优于像GPT-5和Claude Sonnet 4这样的标准模型,这些模型在进阶证明上很难突破20%的大关。
继续刚刚的话题。
🏗️ 训练秘籍:“冷启动”到“超级验证”的飞轮
DeepSeek Math V2背后的工程设计,巧妙解决了“师生问题”。
通常,如果你训练一个验证器(老师)来给生成器(学生)评分,最终学生会变得比老师更聪明。生成器会找到一些验证器无法判断对错的复杂证明。然后训练就会崩溃。
DeepSeek用一个三阶段流程解决了这个问题:
阶段一:冷启动(Cold Start)
他们从AoPS(Art of Problem Solving)竞赛中爬取了17,503个问题。他们用一个基础模型(DeepSeek-V3.2-Exp-Thinking)来生成候选证明。因为基础模型不够好,他们让它自己反复优化答案。然后,人类专家给这些证明打分,为验证器创建了一个“地面真值”数据集。
阶段二:元验证(Meta-Verification)
这部分是很酷的。
他们意识到,一个用烂数据训练出来的验证器,会学会幻觉错误。它会把正确的证明标记为错误,只为了得到一个奖励。
为了解决这个问题,他们引入了元验证。他们训练了一个二级模型来评判验证本身。它会问:“验证器是识别出了一个真正的错误,还是在吹毛求疵?”这让验证器保持了“诚实”。
阶段三:自我提升的算力扩展
随着模型变得越来越聪明,他们用完了困难的训练数据。人类给IMO级别的证明贴标签实在太慢了。
所以,他们自动化了标签过程。
他们用验证器分析了数千个新的证明。如果验证器不确定,他们就会扩大算力,对每个证明运行64次独立的验证分析。如果大多数意见一致,他们就接受这个标签。
这就创造了一个飞轮。验证器给数据贴标签 -> 生成器变得更聪明 -> 生成器创造出更难的证明 -> 验证器扩展算力来给它们贴标签。
我。。。
这感觉就像是给AI准备了一份精简的学习资料,只供精华,没有废话。
💻 怎么运行它:一个Python代码教程
我知道,你想跑跑这个模型。
DeepSeek Math V2是基于DeepSeek-V3.2-Exp-Base架构构建的。虽然论文描述了一个庞大的训练流水线,但推理用法遵循标准的Hugging Face transformers模式。
❝注意: 这是一个巨大的MoE(专家混合)模型。你需要大量的显存(VRAM)或多GPU设置才能运行完整的权重。4位量化是你的好朋友。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# 定义模型ID
model_id = "deepseek-ai/DeepSeek-Math-V2"
# 检查GPU可用性
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"正在 {device} 上加载模型...")
# 加载分词器和模型
# 对于DeepSeek的自定义MoE架构,通常需要trust_remote_code
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True
)
# 提示模板对于定理证明至关重要
# 我们希望触发“思维链”式的推理
problem_text = "证明对于所有正整数 n,3^(2n) + 7 可以被 8 整除。"
prompt = f"""## 问题
{problem_text}
## 指示
请提供一个严谨的证明。您的回答应包括分步解决方案,然后是对您自己逻辑的自我评估。
"""
inputs = tokenizer(prompt, return_tensors="pt").to(device)
# 生成证明
# 我们使用较高的max_length,因为证明过程是冗长的
outputs = model.generate(
**inputs,
max_new_tokens=2048,
temperature=0.6, # 较低的温度以获得严谨的逻辑
top_p=0.95
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("-" * 20)
print("DeepSeek Math V2 证明:")
print(response)
输出不会只是答案。由于DeepSeek Math V2的训练方式,它倾向于将其响应分为两部分:解决方案和自我评估。注意模型在输出日志中明确批评自己的步骤。
⚠️ 局限性:它也有搞不定的时候
一个118/120的普特南分数很容易让人兴奋,但我们需要保持清醒。DeepSeek Math V2不是一个魔法神谕。
我发现,这个模型仍然在绝对最难的那一档问题上挣扎。虽然它解决了6个IMO问题中的5个,但它在那些需要直觉飞跃而不是仅仅严谨推导的“最具创造性”的开放性问题上,会撞墙。
其次,论文强调,要达到这些成绩,模型需要扩展测试时算力。这些头条分数不是来自一个简单的快速提示。它们来自生成64个候选证明,对每个证明运行64次验证,然后选择最好的一个。这在计算上是昂贵的。如果你在一台A100上运行这个,你可能无法立即复制出金牌成绩。
最后
存在“虚假自信”的风险。虽然验证器减少了幻觉,但并没有消除它们。模型仍然可以写出一个非常有说服力、听起来很学术的证明,其中包含一个微妙的逻辑谬误,而内部验证器未能捕捉到。
🌟 开源影响:为什么它对AI研究如此重要
DeepSeek Math V2以Apache 2.0许可证发布,这是一个战略举措,正在改变AI研究的重心。
在过去的两年里,叙事一直是只有封闭的实验室(Google DeepMind,OpenAI)才拥有解决自动化定理证明的算力和数据。DeepSeek证明这是错的。
通过开源权重,他们允许研究人员:
-
剖析验证器: 我们现在可以研究一个模型是如何检测逻辑错误的。 -
针对特定领域进行微调: 你可以拿这个数学模型,然后针对Lean或Isabelle等形式验证语言进行微调。 -
构建更好的Agent:“生成器-验证器”架构是任何Agent工作流的蓝图,不仅仅是数学。它适用于编码、法律分析和科学假设生成。
这个模型充当了下一代强化学习在AI中应用的基础模块。它让我们从RLHF(依赖于人类的“感觉”)转向基于客观逻辑正确性的RLAIF(来自AI反馈的强化学习)。
📝 结论:已验证AI的未来
我们正在从“聊天机器人”时代过渡到“推理器”时代。
DeepSeek Math V2证明,自我验证的数学推理是可以解决的。我们不需要AGI就能获得严谨的数学;我们只需要教模型学会谦逊。我们需要它们以一个疲惫的教授批改期中考试的严谨度,来评估自己的输出。
“最好的开源”和“最好的闭源”之间的差距正在消失。有了DeepSeek Math V2,你拥有了一个可以参加普特南竞赛,并且击败99%本科生的模型。
如果你有硬件,下载这个权重。不要只是让它加减数字。让它去证明一些东西。当它告诉你证明是错误的并修复它时,请记住,这才是我们一直期待的行为。
最好的开源数学LLM来了,且它已经准备好检查它自己的工作。
觉得有用的话,别忘了转发给身边的朋友,一起解锁AI生产力!
模型地址:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

