元龙科普丨AB-MCTS算法突破：多模型协同推理实现 AI 集体智能，性能超越单一系统 30%- 大数跨境

首页

元龙科普丨AB-MCTS算法突破：多模型协同推理实现 AI 集体智能，性能超越单一系统 30%

元龙数字智能科技

2025-07-03

AB-MCTS算法突破

多模型协同推理实现 AI 集体智能，

性能超越单一系统 30%

在日本 Sakana AI 公司的研发实验室里，“三个臭皮匠顶个诸葛亮” 这句蕴含东方智慧的谚语正被赋予全新的技术内涵。由 “Transformer 八子” 之一 Llion Jones 联合创立的团队，于 2025 年 7 月公开的自适应分支蒙特卡洛树搜索算法（AB-MCTS），首次让 Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528 等前沿大模型实现了类人化的协同推理。这种突破传统单模型架构的集体智能系统，在被誉为 “AI 抽象推理考场” 的 ARC-AGI-2 基准测试中，以 30% 的 Pass@250 成功率证明：当不同模型的优势通过算法实现有机融合，其协作效能远超任何单一系统的能力边界。

人类解决复杂问题时，往往同时运用深度思考、广度探索与协作互补三种策略：既会反复推敲现有思路（深度优化），也会尝试不同方法（广度试错），更懂得借助他人专长（群体协作）。AB-MCTS 的核心创新，正是将这三种认知机制转化为可计算的算法框架。该算法通过改造蒙特卡洛树搜索（MCTS），在每个推理节点设置 “生成新方案” 与 “优化现有方案” 的双路径选择，利用概率模型动态评估两种操作的潜在价值。例如在解决数学证明题时，o4-mini 可能率先生成一个不完整的推导链条，AB-MCTS 会同时启动两条分支：一条由 Gemini 2.5 Pro 对现有链条进行逻辑补全（深度方向），另一条触发 DeepSeek-R1-0528 生成全新证明思路（广度方向）。这种自适应分支策略，使系统在相同计算资源下能覆盖更多有效解空间，相较于单纯的重复采样（如 o4-mini 单模型 23% 的解决率），AB-MCTS 将 ARC-AGI-2 任务的成功率提升至 27.5%，尤其在 50 次以上模型调用时展现出明显优势。

为进一步释放多模型协作的潜力，Sakana AI 团队在 AB-MCTS 基础上构建了 Multi-LLM AB-MCTS 系统，首次将 “模型选择” 作为第三个搜索维度纳入框架。该系统面临的核心挑战是：如何在未知问题特性的前提下，动态识别不同模型的优势领域。借鉴机器学习中的多臂老虎机理论，系统为每个模型分配独立的概率评估器，通过汤普森采样算法平衡 “探索新模型” 与 “利用优势模型” 的策略。在 ARC-AGI-2 的色块变换任务中，这种机制展现出惊人的适应性：当发现 Gemini-2.5 Pro 在空间关系推理上的成功率高出其他模型 30% 后，系统自动将后续 60% 的计算资源倾斜至该模型，使该类问题的解决率从单模型的 18% 跃升至 35%。

更具突破性的是，Multi-LLM AB-MCTS 能解决单一模型无法处理的复合问题 —— 某符号推理任务中，o4-mini 生成的初始方案存在逻辑漏洞，但 DeepSeek-R1-0528 通过分析错误模式提炼出启发式规则，再由 Gemini-2.5 Pro 完成规则验证，最终形成完整解决方案，这标志着大模型从 “独立工作” 到 “协同创作” 的关键跨越。

支撑这一技术突破的底层架构是 Sakana AI 开源的 TreeQuest 框架。该框架通过灵活的 API 设计，允许开发者以最少代码将 AB-MCTS 集成到各类任务中，其创新的检查点恢复机制尤其适合复杂场景 —— 当某模型调用因网络波动中断时，系统可从最近的有效节点重启，而非从头开始，这使 Multi-LLM AB-MCTS 在医疗诊断、芯片设计等长流程任务中的实用性大幅提升。

与传统聚焦 “训练时扩展”（如增加模型参数）的技术路径不同，AB-MCTS 代表的 “推理时扩展” 范式，强调通过动态分配计算资源提升模型效能。这种理念暗合人类认知规律 —— 我们并非依赖 “更强大的大脑”，而是通过 “更聪明的思考方式” 解决难题。数据显示，在保持相同训练成本的前提下，AB-MCTS 能使小模型在复杂任务上的表现提升 40%-60%，为资源受限场景提供了高效解决方案。

然而，集体智能的进化之路并非坦途。当前 Multi-LLM AB-MCTS 仍面临三大挑战：首先是计算效率问题，其在 ARC-AGI-2 测试中需调用 250 次模型，这在实时对话或嵌入式设备中难以应用；其次是动态评估机制的理论完善 —— 如何避免 “优势模型垄断” 导致的探索不足，仍需更严谨的数学证明；最后是语义理解的深层局限，当面对需要跨模态隐喻推理的任务时，系统成功率骤降至 15%，暴露出符号处理与常识推理的鸿沟。针对这些问题，研究团队已展开分层搜索策略的研发，通过将复杂问题拆解为 “假设生成 - 逻辑验证 - 结果优化” 的子模块，实现计算资源的精细化分配；同时引入元学习技术，让系统在交互中自主进化模型选择策略，逐步构建更智能的协作生态。

从技术本质看，AB-MCTS 的突破不仅是算法创新，更是 AI 研究范式的转变。它证明：当不同模型的 “认知偏见”（如 Gemini 的逻辑严谨性、o4-mini 的创造性、DeepSeek 的工程实用性）通过科学机制互补，能够形成超越个体的 “集体理性”。这种理念与人类文明的演进轨迹惊人相似 —— 从原始部落的分工协作到现代科研的跨学科融合，集体智慧始终是突破认知边界的核心动力。在 AI 领域，单模型性能的提升正趋近 “边际效应递减”，而 Sakana AI 的实践表明，通过构建 “模型共同体”，我们能够在不依赖算力暴增的前提下，开启智能涌现的新维度。

展望未来，这种集体智能框架的应用前景令人振奋。在医疗领域，可组建 “诊断联盟”—— 让擅长影像分析的模型、精于药理计算的模型与深谙临床经验的模型协同工作，提升疑难病症的检出率；在科研场景，能构建 “创新网络”，不同领域的模型通过交叉授粉，加速新材料发现与科学假说验证；甚至在艺术创作中，多模型协作可突破单一风格局限，生成融合古典技法与现代审美的跨时代作品。正如 ARC-AGI 项目负责人所言：“真正的智能不在于个体的强大，而在于系统的协同进化能力。”

当 Sakana AI 将 TreeQuest 框架以 Apache 2.0 协议开源，他们正在播撒集体智能的种子。这不仅是技术的共享，更是理念的传递 —— 让每个开发者都能成为 “模型协作生态” 的构建者。

从 “三个臭皮匠” 到 “AI 诸葛亮” 的进化之路，或许正是通用人工智能的必经之途：当不同智能体学会像人类一样协作、互补、进化，那些曾被视为 “AI 极限” 的复杂问题，终将在集体智慧的光芒中迎刃而解。这或许才是 AB-MCTS 带给我们最深刻的启示：智能的未来，不在单个模型的珠峰之巅，而在无数 “臭皮匠” 携手搭建的智慧高原。

END

【声明】内容源于网络

元龙数字智能科技

永做第一使命第一向善第一

内容 901

粉丝 0

元龙数字智能科技永做第一使命第一向善第一

总阅读730

粉丝0

内容901