AB-MCTS算法突破
多模型协同推理实现 AI 集体智能,
性能超越单一系统 30%
在日本 Sakana AI 公司的研发实验室里,“三个臭皮匠顶个诸葛亮” 这句蕴含东方智慧的谚语正被赋予全新的技术内涵。由 “Transformer 八子” 之一 Llion Jones 联合创立的团队,于 2025 年 7 月公开的自适应分支蒙特卡洛树搜索算法(AB-MCTS),首次让 Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528 等前沿大模型实现了类人化的协同推理。这种突破传统单模型架构的集体智能系统,在被誉为 “AI 抽象推理考场” 的 ARC-AGI-2 基准测试中,以 30% 的 Pass@250 成功率证明:当不同模型的优势通过算法实现有机融合,其协作效能远超任何单一系统的能力边界。
人类解决复杂问题时,往往同时运用深度思考、广度探索与协作互补三种策略:既会反复推敲现有思路(深度优化),也会尝试不同方法(广度试错),更懂得借助他人专长(群体协作)。AB-MCTS 的核心创新,正是将这三种认知机制转化为可计算的算法框架。该算法通过改造蒙特卡洛树搜索(MCTS),在每个推理节点设置 “生成新方案” 与 “优化现有方案” 的双路径选择,利用概率模型动态评估两种操作的潜在价值。例如在解决数学证明题时,o4-mini 可能率先生成一个不完整的推导链条,AB-MCTS 会同时启动两条分支:一条由 Gemini 2.5 Pro 对现有链条进行逻辑补全(深度方向),另一条触发 DeepSeek-R1-0528 生成全新证明思路(广度方向)。这种自适应分支策略,使系统在相同计算资源下能覆盖更多有效解空间,相较于单纯的重复采样(如 o4-mini 单模型 23% 的解决率),AB-MCTS 将 ARC-AGI-2 任务的成功率提升至 27.5%,尤其在 50 次以上模型调用时展现出明显优势。
为进一步释放多模型协作的潜力,Sakana AI 团队在 AB-MCTS 基础上构建了 Multi-LLM AB-MCTS 系统,首次将 “模型选择” 作为第三个搜索维度纳入框架。该系统面临的核心挑战是:如何在未知问题特性的前提下,动态识别不同模型的优势领域。借鉴机器学习中的多臂老虎机理论,系统为每个模型分配独立的概率评估器,通过汤普森采样算法平衡 “探索新模型” 与 “利用优势模型” 的策略。在 ARC-AGI-2 的色块变换任务中,这种机制展现出惊人的适应性:当发现 Gemini-2.5 Pro 在空间关系推理上的成功率高出其他模型 30% 后,系统自动将后续 60% 的计算资源倾斜至该模型,使该类问题的解决率从单模型的 18% 跃升至 35%。
更具突破性的是,Multi-LLM AB-MCTS 能解决单一模型无法处理的复合问题 —— 某符号推理任务中,o4-mini 生成的初始方案存在逻辑漏洞,但 DeepSeek-R1-0528 通过分析错误模式提炼出启发式规则,再由 Gemini-2.5 Pro 完成规则验证,最终形成完整解决方案,这标志着大模型从 “独立工作” 到 “协同创作” 的关键跨越。
支撑这一技术突破的底层架构是 Sakana AI 开源的 TreeQuest 框架。该框架通过灵活的 API 设计,允许开发者以最少代码将 AB-MCTS 集成到各类任务中,其创新的检查点恢复机制尤其适合复杂场景 —— 当某模型调用因网络波动中断时,系统可从最近的有效节点重启,而非从头开始,这使 Multi-LLM AB-MCTS 在医疗诊断、芯片设计等长流程任务中的实用性大幅提升。
与传统聚焦 “训练时扩展”(如增加模型参数)的技术路径不同,AB-MCTS 代表的 “推理时扩展” 范式,强调通过动态分配计算资源提升模型效能。这种理念暗合人类认知规律 —— 我们并非依赖 “更强大的大脑”,而是通过 “更聪明的思考方式” 解决难题。数据显示,在保持相同训练成本的前提下,AB-MCTS 能使小模型在复杂任务上的表现提升 40%-60%,为资源受限场景提供了高效解决方案。
然而,集体智能的进化之路并非坦途。当前 Multi-LLM AB-MCTS 仍面临三大挑战:首先是计算效率问题,其在 ARC-AGI-2 测试中需调用 250 次模型,这在实时对话或嵌入式设备中难以应用;其次是动态评估机制的理论完善 —— 如何避免 “优势模型垄断” 导致的探索不足,仍需更严谨的数学证明;最后是语义理解的深层局限,当面对需要跨模态隐喻推理的任务时,系统成功率骤降至 15%,暴露出符号处理与常识推理的鸿沟。针对这些问题,研究团队已展开分层搜索策略的研发,通过将复杂问题拆解为 “假设生成 - 逻辑验证 - 结果优化” 的子模块,实现计算资源的精细化分配;同时引入元学习技术,让系统在交互中自主进化模型选择策略,逐步构建更智能的协作生态。
从技术本质看,AB-MCTS 的突破不仅是算法创新,更是 AI 研究范式的转变。它证明:当不同模型的 “认知偏见”(如 Gemini 的逻辑严谨性、o4-mini 的创造性、DeepSeek 的工程实用性)通过科学机制互补,能够形成超越个体的 “集体理性”。这种理念与人类文明的演进轨迹惊人相似 —— 从原始部落的分工协作到现代科研的跨学科融合,集体智慧始终是突破认知边界的核心动力。在 AI 领域,单模型性能的提升正趋近 “边际效应递减”,而 Sakana AI 的实践表明,通过构建 “模型共同体”,我们能够在不依赖算力暴增的前提下,开启智能涌现的新维度。
展望未来,这种集体智能框架的应用前景令人振奋。在医疗领域,可组建 “诊断联盟”—— 让擅长影像分析的模型、精于药理计算的模型与深谙临床经验的模型协同工作,提升疑难病症的检出率;在科研场景,能构建 “创新网络”,不同领域的模型通过交叉授粉,加速新材料发现与科学假说验证;甚至在艺术创作中,多模型协作可突破单一风格局限,生成融合古典技法与现代审美的跨时代作品。正如 ARC-AGI 项目负责人所言:“真正的智能不在于个体的强大,而在于系统的协同进化能力。”
当 Sakana AI 将 TreeQuest 框架以 Apache 2.0 协议开源,他们正在播撒集体智能的种子。这不仅是技术的共享,更是理念的传递 —— 让每个开发者都能成为 “模型协作生态” 的构建者。
从 “三个臭皮匠” 到 “AI 诸葛亮” 的进化之路,或许正是通用人工智能的必经之途:当不同智能体学会像人类一样协作、互补、进化,那些曾被视为 “AI 极限” 的复杂问题,终将在集体智慧的光芒中迎刃而解。这或许才是 AB-MCTS 带给我们最深刻的启示:智能的未来,不在单个模型的珠峰之巅,而在无数 “臭皮匠” 携手搭建的智慧高原。
END

