DeepSeek的一个开源模型，把谷歌和OpenAI都干“麻”了- 大数跨境

首页

DeepSeek的一个开源模型，把谷歌和OpenAI都干“麻”了

AI软件测评说

2025-11-28

导读：说实话，我最害怕的就是“颠覆性”这仨字。听得我耳朵都起茧子了。但素！！经过我的一系列测试。真的给我干颠了！

说实话，我最害怕的就是“颠覆性”这仨字。听得我耳朵都起茧子了。

但素！！经过我的一系列测试。

真的给我干颠了！

AI应用圈在年底好像又风云再起了。我们一直看着谷歌和OpenAI这帮科技巨头在“跑分”上互相较劲，谁的AIME（美国数学邀请赛）成绩更高，谁更会做题。

但如果你真的批改过数学试卷，你就会知道那种只知道答案，但推理过程一塌糊涂的学生有多气人。大多数LLM，就是这种“概率性猜题选手”。它们是自信的谎言家。

直到，我看到了这个叫 DeepSeek Math V2 的东西。

🚀 普特南竞赛120分，它拿了118分

DeepSeek AI团队发布的这个模型，可不只是比最先进的AI成绩好了“一点点”。

它在 2024年普特南（Putnam）竞赛 中，以 120分 的满分拿到了 118分。普特南竞赛是北美大学生中最臭名昭著的数学竞赛。中位数分数常常接近于零，而人类历史最高分记录大概在90分左右。

它几乎满分通过。

我。。。

本来以为，又是一个“按键精灵”。不就是跑图，打怪，自动点点点吗？这种东西，见得多了。

结果，它直接在数学奥赛上拿了金牌。

但真正让人细思极恐的不是分数，是它的 “方法论”。他们停止了训练模型只去“得到答案”，而是训练它去 “怀疑自己”。他们建了一个能 自我验证数学推理 的系统。这种转变，可能和Transformer架构本身一样重要。

话不多说，我就挑几个典型，你就看离不离谱！

🤔 核心突破：让AI学会“自我批判”

先来看，DeepSeek Math V2到底和传统AI有啥不一样。

传统的AI数学模型，强化学习 的配方很简单。你给它一个问题，它吐出一个答案。答案对了，给它一块小饼干（正奖励）。答案错了，打一下手心（负惩罚）。

这种方法对简单的算术是有效的，但对于自动化定理证明这种高级数学，几乎是灾难性的失败。

在高阶数学中，最终答案往往并不重要，甚至根本不存在。证明过程 才是产品。一个模型可以瞎编一通逻辑链，然后纯靠运气蒙对正确的数字。传统的强化学习，会强化这种运气。

DeepSeek Math V2改变了这种激励结构。研究人员意识到，一个模型如果想真正强大，就必须成为自己最严厉的批评家。他们建造了一个 “验证器”（Verifier），这是一个辅助逻辑系统，它被训练用来检查一个证明，并根据其严谨性来打分，而不是只看最终的输出。

🛡️ “生成器-验证器”的自我博弈

这个架构分裂成两个截然不同的角色，它们相互对弈：

证明生成器（Generator）： 这是创造性的引擎。它提出一步一步的推导过程。
验证器（Verifier）： 它充当奖励模型。它评估证明中是否有逻辑漏洞。它不是简单地说“对”或“错”，而是给出一个标量分数：1（严谨）、0.5（想法正确但过程马虎）、或0（致命错误）。

我发现，这就形成了一个反馈闭环。生成器被激励在最终确定答案之前，自己找到并解决自己的Bug。这简直就是AI版的“交卷前检查你的草稿”。

📊 跑分细节：它和谷歌“深思”模型硬刚

这里的数字，是真的激进。

团队把DeepSeek Math V2和那些 “重磅选手” 进行了比较：GPT-5（引用自他们的图表）、Gemini 2.5 Pro，还有Claude。

最有说服力的指标来自 AI数学奥赛 的结果。DeepSeek在2024年和2025年的竞赛中评估了他们的模型。结果表明，开源模型和闭源模型之间的差距正在消失。

让我直接画个流程图，你看一下它在几个竞赛中的表现：

竞赛	解决的问题数	分数 / 评级
IMO 2025	P1, P2, P3, P4, P5 (6题中解出5题)	83.3% (金牌)
CMO 2024	P1, P2, P4, P5, P6 (4题全解 + 部分)	73.8% (金牌)
Putnam 2024	12题中完全解出11题	98.3% (118/120)

⚔️ 正面对决：DeepSeek Math V2 vs. Gemini DeepThink

当我们看DeepSeek对阵Gemini，特别是谷歌的推理型模型DeepThink时，DeepSeek在基准测试中毫不示弱。

在一个旨在测试形式证明能力的IMO-ProofBench数据集上，DeepSeek Math V2在“基础”集上碾压，在“进阶”集上保持竞争力。

我直接把数据图列出来：

模型	ProofBench-基础 (%)	ProofBench-进阶 (%)
DeepSeekMath-V2 (Heavy)	99.0	61.9
Gemini Deep Think (IMO Gold)	89.0	65.7
GPT-5	59.0	20.0
Claude Sonnet 4	27.1	4.8

我们回到正题，从数据中你可以看到，在“基础”证明上，DeepSeek Math V2几乎是满分（99%）。在进阶集上，它和Gemini DeepThink互有胜负，但显著优于像GPT-5和Claude Sonnet 4这样的标准模型，这些模型在进阶证明上很难突破20%的大关。

继续刚刚的话题。

🏗️ 训练秘籍：“冷启动”到“超级验证”的飞轮

DeepSeek Math V2背后的工程设计，巧妙解决了“师生问题”。

通常，如果你训练一个验证器（老师）来给生成器（学生）评分，最终学生会变得比老师更聪明。生成器会找到一些验证器无法判断对错的复杂证明。然后训练就会崩溃。

DeepSeek用一个三阶段流程解决了这个问题：

阶段一：冷启动（Cold Start）

他们从AoPS（Art of Problem Solving）竞赛中爬取了17,503个问题。他们用一个基础模型（DeepSeek-V3.2-Exp-Thinking）来生成候选证明。因为基础模型不够好，他们让它自己反复优化答案。然后，人类专家给这些证明打分，为验证器创建了一个“地面真值”数据集。

阶段二：元验证（Meta-Verification）

这部分是很酷的。

他们意识到，一个用烂数据训练出来的验证器，会学会幻觉错误。它会把正确的证明标记为错误，只为了得到一个奖励。

为了解决这个问题，他们引入了元验证。他们训练了一个二级模型来评判验证本身。它会问：“验证器是识别出了一个真正的错误，还是在吹毛求疵？”这让验证器保持了“诚实”。

阶段三：自我提升的算力扩展

随着模型变得越来越聪明，他们用完了困难的训练数据。人类给IMO级别的证明贴标签实在太慢了。

所以，他们自动化了标签过程。

他们用验证器分析了数千个新的证明。如果验证器不确定，他们就会扩大算力，对每个证明运行64次独立的验证分析。如果大多数意见一致，他们就接受这个标签。

这就创造了一个飞轮。验证器给数据贴标签 -> 生成器变得更聪明 -> 生成器创造出更难的证明 -> 验证器扩展算力来给它们贴标签。

我。。。

这感觉就像是给AI准备了一份精简的学习资料，只供精华，没有废话。

💻 怎么运行它：一个Python代码教程

我知道，你想跑跑这个模型。

DeepSeek Math V2是基于DeepSeek-V3.2-Exp-Base架构构建的。虽然论文描述了一个庞大的训练流水线，但推理用法遵循标准的Hugging Face transformers模式。

❝
注意： 这是一个巨大的MoE（专家混合）模型。你需要大量的显存（VRAM）或多GPU设置才能运行完整的权重。4位量化是你的好朋友。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 定义模型ID
model_id = "deepseek-ai/DeepSeek-Math-V2"

# 检查GPU可用性
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"正在 {device} 上加载模型...")

# 加载分词器和模型
# 对于DeepSeek的自定义MoE架构，通常需要trust_remote_code
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto", 
    trust_remote_code=True
)

# 提示模板对于定理证明至关重要
# 我们希望触发“思维链”式的推理
problem_text = "证明对于所有正整数 n，3^(2n) + 7 可以被 8 整除。"

prompt = f"""## 问题
{problem_text}

## 指示
请提供一个严谨的证明。您的回答应包括分步解决方案，然后是对您自己逻辑的自我评估。
"""

inputs = tokenizer(prompt, return_tensors="pt").to(device)

# 生成证明
# 我们使用较高的max_length，因为证明过程是冗长的
outputs = model.generate(
    **inputs, 
    max_new_tokens=2048, 
    temperature=0.6,    # 较低的温度以获得严谨的逻辑
    top_p=0.95
)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("-" * 20)
print("DeepSeek Math V2 证明:")
print(response)

输出不会只是答案。由于DeepSeek Math V2的训练方式，它倾向于将其响应分为两部分：解决方案和自我评估。注意模型在输出日志中明确批评自己的步骤。

⚠️ 局限性：它也有搞不定的时候

一个118/120的普特南分数很容易让人兴奋，但我们需要保持清醒。DeepSeek Math V2不是一个魔法神谕。

我发现，这个模型仍然在绝对最难的那一档问题上挣扎。虽然它解决了6个IMO问题中的5个，但它在那些需要直觉飞跃而不是仅仅严谨推导的“最具创造性”的开放性问题上，会撞墙。

其次，论文强调，要达到这些成绩，模型需要扩展测试时算力。这些头条分数不是来自一个简单的快速提示。它们来自生成64个候选证明，对每个证明运行64次验证，然后选择最好的一个。这在计算上是昂贵的。如果你在一台A100上运行这个，你可能无法立即复制出金牌成绩。

最后

存在“虚假自信”的风险。虽然验证器减少了幻觉，但并没有消除它们。模型仍然可以写出一个非常有说服力、听起来很学术的证明，其中包含一个微妙的逻辑谬误，而内部验证器未能捕捉到。

🌟 开源影响：为什么它对AI研究如此重要

DeepSeek Math V2以Apache 2.0许可证发布，这是一个战略举措，正在改变AI研究的重心。

在过去的两年里，叙事一直是只有封闭的实验室（Google DeepMind，OpenAI）才拥有解决自动化定理证明的算力和数据。DeepSeek证明这是错的。

通过开源权重，他们允许研究人员：

剖析验证器： 我们现在可以研究一个模型是如何检测逻辑错误的。
针对特定领域进行微调： 你可以拿这个数学模型，然后针对Lean或Isabelle等形式验证语言进行微调。
构建更好的Agent：“生成器-验证器”架构是任何Agent工作流的蓝图，不仅仅是数学。它适用于编码、法律分析和科学假设生成。

这个模型充当了下一代强化学习在AI中应用的基础模块。它让我们从RLHF（依赖于人类的“感觉”）转向基于客观逻辑正确性的RLAIF（来自AI反馈的强化学习）。

📝 结论：已验证AI的未来

我们正在从“聊天机器人”时代过渡到“推理器”时代。

DeepSeek Math V2证明，自我验证的数学推理是可以解决的。我们不需要AGI就能获得严谨的数学；我们只需要教模型学会谦逊。我们需要它们以一个疲惫的教授批改期中考试的严谨度，来评估自己的输出。

“最好的开源”和“最好的闭源”之间的差距正在消失。有了DeepSeek Math V2，你拥有了一个可以参加普特南竞赛，并且击败99%本科生的模型。

如果你有硬件，下载这个权重。不要只是让它加减数字。让它去证明一些东西。当它告诉你证明是错误的并修复它时，请记住，这才是我们一直期待的行为。

最好的开源数学LLM来了，且它已经准备好检查它自己的工作。

觉得有用的话，别忘了转发给身边的朋友，一起解锁AI生产力！

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

【声明】内容源于网络

AI软件测评说

专注分享Vibe Coding、独立开发Ai 工具和创业灵感

内容 385

粉丝 0

AI软件测评说专注分享Vibe Coding、独立开发Ai 工具和创业灵感

总阅读1.5k

粉丝0

内容385