突破传统!Kimi Researcher
用端到端强化学习
重塑智能研究格局
在当今 AI 领域,创新的浪潮正以前所未有的速度席卷而来。月之暗面(Moonshot AI)推出的 Kimi Researcher,宛如一颗璀璨的新星,照亮了智能研究的新方向。这款基于端到端强化学习(End-to-End Reinforcement Learning, E2E RL)技术的 AI Agent,不仅在技术层面实现了重大突破,更在实际应用中展现出了令人瞩目的潜力。
自 2024 年起,AI Agent 领域呈现出两大显著趋势,深刻地改变着这一领域的格局。一方面,从 “外挂式” 向 “内化式” 转变,以往依赖外部工具调用的模式逐渐被摒弃,取而代之的是对模型自身能力的深度挖掘与提升。另一方面,从规则驱动迈向学习驱动,让 AI 通过大规模训练自主探寻解决问题的策略,而不再局限于人类预先设定的规则。Kimi Researcher 的诞生,正是对这两大趋势的有力回应与践行。
当下,Agent 被广泛视为通往通用人工智能(AGI)的关键路径。行业内构建 Agent 的主流方法之一是 “工作流(Workflow)” 模式。以 Devin 和 Manus 为例,它们采用任务拆分与预定义执行流程架构,先由 Planner 制定多阶段计划,再由 Executor 调用工具逐步完成任务,并依据反馈进行调整。这种模式借助提示词工程和模块化设计,将大语言模型与外部工具相连,具备流程清晰、可控性强的优势。然而,面对开放、复杂的任务时,其灵活性欠佳、难以泛化的弊端也暴露无遗,这促使众多团队积极探索新的技术路径。
Kimi Researcher 另辟蹊径,选择了端到端强化学习这一技术路线。其核心在于,让模型在模拟环境中通过大量自主探索与试错来学习,旨在让模型自行 “领悟” 完成任务的策略,而非遵循人类编写的固定步骤。这种将能力 “内化” 于模型自身的思路,与 “工作流” 模式下模型作为 “调用者” 的理念截然不同。
采用端到端强化学习训练 Agent 面临诸多严峻挑战。环境的不稳定性首当其冲,网络搜索结果会随时间不断变化;长序列决策问题也极为棘手,一个研究任务可能需要上百个步骤的连续决策;计算资源的巨大消耗更是不容忽视,每次训练迭代都需要大量的 “试错” 过程。月之暗面凭借部分展开(Partial Rollout)等技术创新,成功将训练效率提升了 1.5 倍,为这一技术的实际应用带来了曙光。
值得注意的是,将 E2E RL 应用于研究型 Agent 并非月之暗面的独家探索。OpenAI 的 Deep Research 系统同样采用端到端强化学习,让模型自主规划、回退、调整策略,以完成浏览、计算分析、整合网站信息等任务。由于 Deep Research 处理的任务往往缺乏标准可验证答案来提供奖励信号,分析推测其可能采用了 LLM as Judge(大型语言模型作为评判者)来实施强化学习。在强化学习中,奖励机制至关重要,LLM as Judge 通过语言模型评估 Agent 行为并给予反馈,特别适用于复杂无明确奖励信号的任务,能够有效优化 Agent 的表现。不同团队在相似技术方向上的探索,因各自技术基础的差异,可能会使最终产品呈现出不同的特性。例如,月之暗面依托长上下文(Long Context)技术,而 OpenAI 则以通用推理能力见长的模型系列为支撑,这些技术侧重的不同,将影响其 Agent 在处理任务时的具体表现与能力边界。
在产品层面,Kimi Researcher 以独特的 “双报告系统” 呈现给用户。一份是包含详细文字与可溯源引用的深度报告,为用户提供严谨、详实的研究结果;另一份则是动态、可视化的网页报告,借助思维导图和图表,极大地提升了用户获取信息的效率。此外,产品在交互上独具匠心,能够主动澄清用户的模糊需求,助力用户定义清晰的问题。
Kimi Researcher 的应用场景极为广泛。在尽调与搜索场景中,它能够帮助团队发现尚未关注到的最新 benchmark,为研究工作提供极具价值的信息。在知识体系梳理方面,它可以依据时间线梳理关键事件、制度差异及影响因素,帮助用户快速把握复杂知识结构的逻辑脉络。在探索陌生领域时,如对东南亚国家的数据和隐私法进行研究,它能在短时间内生成全面、清晰的万字报告。甚至在娱乐场景中,基于虚拟漫画世界中的比赛数据,它也能分析人物角色的技术特点。对于参数复杂、需求个性化的商品挑选,它同样能够提供专业、细致的分析与建议。
月之暗面研究员冯一尘和毛绍光分享了 Kimi Researcher 背后的技术思考与探索历程。冯一尘指出,构建 Kimi-Researcher 的核心理念是打造一个真正会 “做研究” 的 AI Agent,而非仅仅是一个 “搜索工具”。为此,他们选择了端到端强化学习这一艰难但充满潜力的道路。传统 Agent 方法,如 Workflow 拼装和 SFT,存在灵活性受限、依赖人工标注、难以扩展等问题,而端到端强化学习能够让模型挣脱 “固定流程” 的束缚,实现更灵活通用的决策,以 “数据” 而非 “设计” 驱动能力增长,并且具备良好的扩展性。在实际训练中,Kimi Researcher 在 Humanity's Last Exam 榜单上的得分从最初的 8.6% 跃升至 26.9%,pass@4 指标达到 40.17%,展现出强化学习在 Agent 训练上的巨大价值,同时还观察到模型在探索中涌现出的智能行为,如主动交叉验证答案、尝试创新性解决方案等。
毛绍光回顾了 Agent 领域的发展历程,早期 Agent 概念复兴后,曾进入一个发展瓶颈期,Workflow 模式在面对复杂任务时暴露出泛化性不足等问题。在此背景下,月之暗面团队坚定地选择将 Agent 的能力内化到模型本身,尽管训一个 Agent Model 面临诸多挑战,如环境动态性、任务长序列性、训练数据获取及长上下文学习等问题,但团队通过技术创新和高效协作,成功推出了 Kimi-Researcher。他强调,在 AI 领域的探索中,前期要通过充分实验获取认知,确定方向后则要坚持不懈,给训练和自身成长以足够的耐心与沉淀。
Kimi Researcher 的推出,无疑是 AI 领域的一次重大突破。它不仅为用户提供了强大的智能研究工具,更为 AI Agent 的发展开辟了新的道路。随着技术的不断进步与完善,我们有理由相信,Kimi Researcher 将在更多领域发挥重要作用,推动智能研究迈向新的高度,也让我们对未来 AI 与人类深度协作的美好前景充满期待。而对于广大对 AI Agent 感兴趣的朋友,不妨积极参与到相关交流与体验中,共同见证这一领域的蓬勃发展。
END

