揭秘 Kimi-Researcher
新一代Agent模型实测
打破壁垒展现超强实力
在 “Agent 元年” 2025 年的 AI 舞台上,各类 Agent 产品纷纷登场,让人应接不暇。然而,在这片喧嚣中,月之暗面推出的 Kimi-Researcher,宛如一颗璀璨新星,以其独特的魅力与强大的实力,吸引了无数目光。
Kimi-Researcher 的特别之处,首先体现在其技术架构上。它采用端到端强化学习训练,这一创新模式与传统 Agent 产品有着本质区别。传统的 Agent 产品大多依赖人工预定义工作流,通过调用外部 API、结合精细 Prompt 和人工编排流程来运行,这种方式虽然在一定程度上能满足需求,但也受限于人为规则和预设逻辑。而 Kimi-Researcher 从用户输入问题到输出结果,全程由一个模型自主完成,它能够自主生成工作流程,学会自主调用工具,不再依赖人工预先设定。这种端到端的训练方式,让模型能够根据实际情况灵活调整解决问题的步骤,极大地提升了其泛化能力。
强化学习的应用更是为 Kimi-Researcher 赋予了 “成长” 的能力。与普通训练不同,强化学习引入了 “奖励函数” 机制。当模型给出正确答案或采取正确行动时,就会获得奖励得分;反之则会被扣分。在不断的 “试错” 过程中,模型逐渐学会分辨对错,明确何种行为能更好地完成任务。在给定的空间内,模型就像一个不断探索的 “学习者”,通过反复实践与反馈,持续优化自身表现。
从本质上来说,Kimi-Researcher 不仅是一个模型,更是一个智能 Agent。它集成了模型、推理规划、工具调用、记忆等多种能力,在训练过程中着重强化对其他组件能力的调用训练。这种特性使得它在面对复杂任务时,能够综合运用多种能力,展现出强大的问题解决能力。
在实际性能表现上,Kimi-Researcher 更是成绩斐然。它打破了 OpenAI 和 Gemini 在 Deep Research 领域积累已久的壁垒,初始 HLE 准确率仅为 8.6%,但经过端到端强化学习训练后,HLE 准确率飙升至 26.9%,Pass@4 准确率更是达到惊人的 40.17%,成功登顶。同时,它还在红杉 xbench 测试中表现出色,充分证明了其解决现实问题的强大能力,成为国内首家验证大规模 E2E Agentic RL 可行性并实现产品化的团队。
为了检验 Kimi-Researcher 在实际应用中的能力,团队进行了大量实测。在与用户交互过程中,Kimi-Researcher 展现出了高度的智能。面对用户提出的问题,它不会直接给出答案,而是先通过精准的反问,与用户一起拆解问题、明确意图,确保真正理解用户需求。在理解需求后,它会通过平均 23 步的推理步骤,结合任务目标灵活规划行动路线。在信息搜索环节,它平均检索 74 个关键词,找到 206 个网址,并自主筛选出高质量信息;还能配合搜索,自主调用浏览器、代码等工具,对原始数据进行处理,自动生成分析结论。
最终交付的成果更是令人惊喜,用户不仅能获得一份 1 万字以上、平均包含 26 处引用且可直接溯源的详细报告,还能收到一份简约美观的可视化网页,方便梳理和理解信息。
在具体案例测试中,Kimi-Researcher 的表现同样亮眼。在硬件产品分析任务中,要求对 OPPO Find X8 Ultra、XIAOMI 15 ultra 和 Vivo X200 Ultra 进行深入对比,Kimi-Researcher 在分析影像系统时,不仅考虑了基本摄像头参数,还纳入中焦、潜望、前置、光学变焦和数字变焦等维度,同时关注夜景拍摄和视频录制能力,相比 OpenAI Deep Research 考虑得更加全面。
对于近期 GitHub 热门开源项目 Browser-Use 的解读分析,Kimi-Researcher 展现出了意想不到的能力。在报告阶段,它自主通过 Mermaid 代码画图,梳理知识架构,这一能力未经专门训练却自然涌现。虽然目前对 GitHub 仓库的解读深度还不及 OpenAI,但已展现出巨大潜力。
在热点与行业分析方面,以分析全球爆火的 Labubu 为例,Kimi-Researcher 和 OpenAI Deep Research 呈现出不同风格。Kimi-Researcher 注重结构化表达和逻辑闭环,通过时间线梳理、数据验证和跨界反馈,完整还原 Labubu 破圈全过程并进行深度归因;而 OpenAI Deep Research 更侧重故事化叙述和感性观察,结构相对松散。在时间线呈现上,Kimi-Researcher 阶段划分清晰,结合触发机制和市场反应,便于用户快速掌握全貌;OpenAI 则信息较为分散。在成功因素分析上,Kimi-Researcher 从多个维度构建逻辑框架,结构完整,OpenAI 虽然分析范围窄,但在某些关键点挖掘更深入。
当然,Kimi-Researcher 也并非完美无缺。在功能上,用户希望它能支持指定文件或链接上传,关联 GitHub 等知识库;搜索方面,线性搜索效率有待提升,信源也可进一步优化,增加中文公众号等信源比例;分享功能上,期待能实现报告特定语句分享;交互方面,希望生成的报告和可视化网页能具备更强的交互编辑功能。
总体而言,Kimi-Researcher 的出现,为 AI Agent 领域带来了新的曙光。它的成功不仅为同行探索 “自主智能体” 指明了方向,也让国内开发者看到了新的希望。随着 Kimi 基模开源计划的推进,未来国内 AI 应用开发或将迎来全新局面,大众也有望真正体验到 AI Agent 百花齐放的魅力。相信在不断的优化与发展中,Kimi-Researcher 将在 AI 的广阔天地中绽放更加耀眼的光芒 。
END

