大数跨境
0
0

DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理

DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理 网站建设和seo优化
2025-12-01
13
导读:新版本模型推理进阶,领跑全球开源赛道
两个月前,我们发布了实验性的 DeepSeek-V3.2-Exp,收到了大量用户反馈的对比测试结果。目前未发现 V3.2-Exp 在任何特定场景中表现显著劣于 V3.1-Terminus,验证了 DSA 稀疏注意力机制的有效性。感谢广大用户的积极反馈与支持,为我们的持续创新提供了信心与动力。 今天,我们正式发布两个新版本模型:**DeepSeek-V3.2** 和 **DeepSeek-V3.2-Speciale**。 官方网页端、App 及 API 已全面升级为正式版 DeepSeek-V3.2,欢迎使用。Speciale 版本目前以临时 API 服务形式开放,供社区评测与研究。 新模型的技术报告已同步发布:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

推理能力全球领先

  • DeepSeek-V3.2 旨在平衡推理能力与输出长度,适用于日常问答及通用 Agent 任务。在公开推理类 Benchmark 测试中,其性能达到 GPT-5 水平,略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 输出更短,显著降低计算开销与响应延迟。
  • DeepSeek-V3.2-Speciale 是 V3.2 的长思考增强版,融合 DeepSeek-Math-V2 的定理证明能力,专为探索模型极限而设计。该模型在指令遵循、数学证明与逻辑验证方面表现卓越,主流推理基准性能媲美 Gemini-3.0-Pro。尤为突出的是,V3.2-Speciale 已成功斩获 IMO 2025、CMO 2025、ICPC World Finals 2025 及 IOI 2025 四项国际顶级赛事金牌,其中 ICPC 与 IOI 成绩分别达人类选手第二名与第十名水平。

需注意:Speciale 模型在复杂任务上表现远超标准版,但 Token 消耗更高,成本更大。当前仅限研究用途,不支持工具调用,也未针对日常对话或写作进行优化。

表1:DeepSeek-V3.2 与其他模型在数学、代码与通用领域评测集上的得分(括号内为消耗 Tokens 总量约数)

思考融入工具调用

  • DeepSeek-V3.2 是首款实现“思考融入工具使用”的模型,支持思考模式与非思考模式下的工具调用。我们提出大规模 Agent 训练数据合成方法,构建了 1800+ 环境、85,000+ 复杂指令的强化学习任务,显著提升模型泛化能力。

表2:DeepSeek-V3.2 与其他模型在智能体工具调用评测集上的得分

  • 如表2所示,DeepSeek-V3.2 在智能体评测中达到当前开源模型最高水平,大幅缩小与闭源模型的差距。值得注意的是,该模型并未针对测试集中工具做专项训练,表明其具备较强的真实场景泛化能力。

示例展示通过 LobeChat 调用 DeepSeek-V3.2 的深度思考+工具调用能力,获得更详尽准确的回答。

开源

  • DeepSeek-V3.2

HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2

ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2

  • DeepSeek-V3.2-Speciale

HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale

网页端、APP 与 API 更新

DeepSeek-V3.2 已全面上线官网网页端、APP 及 API,替代此前的实验版本 DeepSeek-V3.2-Exp,使用方式保持不变。

为便于社区评测与研究,我们临时部署了 DeepSeek-V3.2-Speciale 的 API 服务。用户可通过设置:

base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"

访问该模型。API 定价不变,仅支持思考模式下的对话功能,不支持工具调用,最大输出长度为 128K,服务有效期至北京时间 2025-12-15 23:59。

思考模式下的工具调用

本次 API 更新支持 DeepSeek-V3.2 在思考模式下进行工具调用。在此模式下,模型可经多轮“思考 + 工具调用”后输出更精准详实的结果。下图为思考模式下工具调用的 API 请求流程示意:

  • 在处理问题1时(请求1.1–1.3),模型通过多次思考与工具调用得出答案,用户需回传思维链内容(reasoning_content)以继续推理过程。
  • 开始下一问题时(请求2.1),应删除前序思维链,保留其他上下文发送给 API。
  • 详细使用说明请参考 API 文档:
    https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

此外,DeepSeek-V3.2 的思考模式现已支持 Claude Code,用户可通过将模型名设为 deepseek-reasoner,或在 Claude Code CLI 中按 Tab 键启用。但需注意,该模式尚未充分适配 Cline、RooCode 等采用非标准工具调用的组件,建议此类场景继续使用非思考模式。

【声明】内容源于网络
0
0
网站建设和seo优化
1234
内容 195
粉丝 0
网站建设和seo优化 1234
总阅读565
粉丝0
内容195