大数跨境
0
0

Kimi K2 Thinking:智能体推理超越GPT-5

Kimi K2 Thinking:智能体推理超越GPT-5 脑洞科技社
2025-11-10
8
导读:Kimi K2 Thinking的发布,无疑是全球大模型领域的一个重要事件。它不仅以开源的姿态,将国产大模型的实力推向了与世界第一梯队仅差数月的新高度,更重要的是,它在“模型即Agent”的道路上迈出

月之暗面(Moonshot AI)近日震撼发布并开源了其最新力作——Kimi K2 Thinking。这款被誉为“迄今能力最强的开源思考模型”,以“模型即Agent”为核心理念,旨在大幅缩小开源与闭源大模型之间的差距,其在多项关键能力上展现出超越GPT-5的惊人表现。

Kimi K2 Thinking的核心亮点在于其强大的智能体(Agent)能力。它不再仅仅是一个被动的语言生成器,而是一个能够主动思考并利用工具解决复杂问题的智能体。官方数据显示,K2 Thinking无需人工干预,即可执行高达200-300次的连续工具调用,展现了前所未有的任务执行持久性和复杂性。

这一突破得益于月之暗面在“测试时扩展”(Test-Time Scaling)领域的最新进展,通过同步扩展思考Token和工具调用轮次,模型的推理和Agent性能得到了质的飞跃。这意味着K2 Thinking能够像人类专家一样,为了解决一个复杂问题,持续地进行“思考→搜索→浏览网页→编程→验证”的动态循环。

  • 模型规模
    总参数量高达1TB,采用MoE架构,激活参数为32B。
  • 上下文窗口
    支持256K的超长上下文窗口。
  • 原生量化
    采用原生INT4量化,而非FP8。这一选择不仅将生成速度提升约2倍,还对国产计算芯片更加友好,降低了部署门槛。

Kimi K2 Thinking的发布并非空谈,其在多个权威基准测试中的表现令人瞩目,甚至在部分测试中超越了GPT-5、Claude Sonnet 4.5等顶尖闭源模型。

图片
  • 人类最后考试 (HLE)
    在允许使用搜索、Python等工具的条件下,K2 Thinking取得了44.9%的SOTA成绩。
  • 自主网络浏览 (BrowseComp)
    以60.2%的成绩刷新纪录,远超人类平均水平(29.2%),展示了其强大的信息检索和整合能力。
  • 智能体工具使用 (²-Bench Telecom)
    第三方测试显示,其工具使用能力从K2 Instruct的73%跃升至93%,达到新的SOTA。

除了强大的推理和搜索能力,K2 Thinking在编程和通用能力方面也实现了显著增强.

在SWE-bench、LiveCodeBench等编程基准中,K2 Thinking与顶级闭源模型不相上下。它尤其擅长处理前端任务,能将模糊的创意转化为功能齐全、响应式的产品。官方演示中,它甚至能独立复刻一个Word文字编辑器或创作华丽的Voxel Art作品,展现了其处理复杂多步骤开发工作流的强大潜力。

  • 创意写作  能将粗略灵感转化为意象生动、情感共鸣强烈的叙述。
  • 学术研究 在分析深度、信息准确性和逻辑结构上均有提升,擅长处理学术论文和技术报告。
  • 情感对话 回答更富同理心,立场更中正平和,能提供细致入微的观点。


尽管K2 Thinking表现惊艳,但独立的测评也指出了其尚待完善的方面。测评机构“大模型观测员”将其誉为“属于Kimi的阿波罗10号”,肯定了其里程碑式的意义。

主要优势

  1. 长链推理  在最复杂的推理问题上,性能接近GPT-5 Mini。
  2. 低幻觉率  上下文关键信息抓取能力显著改善,幻觉率进入第一梯队。
  3. 计算稳定性  得益于低幻觉,其数学计算的稳定性也达到顶尖水准。

待改进之处

  1. 指令遵循 在处理复杂指令时,能力略逊于Grok 4。
  2. 编程基本功 基础编程能力未有显著强化,更侧重于Agent模式下的“知错能改”。
  3. Token消耗 为追求解答的准确性,其思考过程偏向“暴力破解”,导致Token开销显著高于同类模型。


Kimi K2 Thinking的发布,无疑是全球大模型领域的一个重要事件。它不仅以开源的姿态,将国产大模型的实力推向了与世界第一梯队仅差数月的新高度,更重要的是,它在“模型即Agent”的道路上迈出了坚实而超前的一步。正如测评所言,它刷新的是分数,更是大模型从业者的“登月梦想”。Kimi的这艘飞船,已然进入环月轨道,未来可期。

Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力

Kimi,公众号:Kimi开放平台Kimi K2 Thinking 模型发布并开源,全面提升 Agent 和推理能力

Kimi K2 Thinking 测评

toyamanao,公众号:大模型观测员Kimi K2 Thinking 测评


【声明】内容源于网络
0
0
脑洞科技社
1234
内容 119
粉丝 0
脑洞科技社 1234
总阅读674
粉丝0
内容119