中国人工智能学会

2025-04-11

101

大型语言模型推理能力的系统性综述

推理是支撑逻辑推导、问题求解与决策制定的核心认知过程。随着大型语言模型（LLMs）的发展，推理能力已成为区分先进AI系统与传统模型的关键标志之一[k]。

本文从两个正交维度对现有LLM推理方法进行系统分类：推理机制（Regimes）与系统架构（Architectures）[k]。

推理机制：指推理是在推理时刻（inference time）通过计算扩展实现，还是通过专门训练学习获得；
系统架构：指推理由单一LLM独立完成，还是在包含外部工具的自主型复合系统（agentic compound systems）或多智能体协作系统中实现[k]。

在每个维度下，进一步从两个层面分析：输入层面聚焦高质量提示工程以引导推理，输出层面关注通过多样化候选生成与精炼提升推理质量[k]。

该分类框架揭示了当前LLM推理领域的主要趋势：从“推理扩展”向“学习推理”演进（如DeepSeek-R1），以及从单体模型向自主智能工作流转型（如OpenAI Deep Research、Manus Agent）[k]。

综述涵盖多种学习算法，包括监督微调、强化学习（如PPO、GRPO），以及“推理器”与“验证器”的联合训练机制[k]。

文章还探讨了自主工作流的关键设计，如“生成器-评估器”框架与LLM辩论机制，并指出当前兴起的方向（如领域专用推理系统）与未解挑战（如评估方法与数据质量）[k]。

本研究旨在为AI研究者与开发者提供LLM推理领域的全面基础，推动构建更智能、可靠的新一代人工智能系统[k]。

1 引言

推理涉及分析证据、构建逻辑论证并形成合理判断，是决策、问题求解和批判性思维的核心能力，其研究横跨哲学、心理学与计算机科学等多个领域[k]。

近年来，大型语言模型（LLMs）展现出上下文学习与角色扮演等新兴能力，其中推理被视为最关键的发展方向之一，常被称为“LLM推理”或“推理语言模型（RLM）”[k]。

推理之所以重要，因其具备三大特性：挑战性——需超越token级生成进行多步处理；基础性——构成智能的核心，尤其在规划与战略决策中；前景广阔——近期技术进展已指明发展路径[k]。

因此，推理被广泛认为是迈向通用人工智能（AGI）的关键前提，远超传统指令执行型系统[k]。

有效推理要求LLM生成从“问题→推理步骤→答案”的显性或隐性思维链。研究表明，仅靠扩大预训练规模难以提升推理能力[k]。

一种主流方法是思维链（Chain-of-Thought, CoT）提示，通过设计提示词（如“让我们一步步思考”）激发分步推理，显著提升模型准确性[k]。

基于此，LLM推理能力取决于两大因素：推理发生的方式与阶段，以及参与推理的系统架构[k]。

据此，我们将现有研究划分为两个正交维度：推理机制（推理扩展 vs. 学习推理）与系统架构（独立LLM vs. 自主系统）[k]。

这两个维度相互独立，同一架构可适配不同机制，反之亦然。此交叉视角有助于系统梳理研究进展，识别从“推理扩展”到“学习推理”、从单体模型到自主系统的演进趋势[k]。

1.1 推理机制（Reasoning Regimes）

推理扩展（Inference Scaling）
思维链提示展示了在推理时刻扩展推理能力的潜力。研究发现，在推理阶段优化计算资源（如提示设计与工作流）比扩大模型参数更有效，因其增强模型泛化能力[k]。

由此发展出“推理时扩展技术”，允许在生成答案前增加额外推理步骤，核心在于通过优化推理路径提升输出质量[k]。

相关提示方法通过结构化提示增强推理，而推理扩展还依赖搜索与规划策略。其主要挑战在于候选解的评估困难，现有方法分为两类：结果奖励模型（ORMs）评估最终输出正确性，过程奖励模型（PRMs）评估中间推理合理性[k]。

代表性成果为OpenAI o1（2024年9月发布），其在数学、编程与科学问题上展现强大推理扩展能力[k]。

“我们发现，随着强化学习训练量（训练计算）与推理时间（测试计算）的增加，o1的表现持续提升。这种方法的扩展规律与传统LLM预训练截然不同。”
——OpenAI o1发布博客[k]

学习推理（Learning-to-Reason）
另一策略是通过训练显式增强推理能力，以降低对昂贵测试时计算的依赖。其主要挑战是缺乏高质量带注释推理轨迹数据，因人工标注成本高昂[k]。

为此，研究者探索自动生成推理路径的方法，并发展多种训练策略：长思维链监督微调、偏好学习（如DPO）、强化学习（如GRPO）等[k]。

典型代表为DeepSeek-R1（2025年1月发布），其在显著更低资源消耗下达到与o1相当性能，且展现出“反思”与策略探索等自发行为[k]。

“随着推理时间增加，模型自然展现出‘反思’行为——回顾并修正先前步骤，探索替代策略。这些行为非显式编程，而是强化学习中自发涌现。”
——DeepSeek-R1“顿悟时刻”[k]

1.2 推理系统架构（Reasoning System Architecture）

独立LLM与自主系统
除机制外，系统架构也是拓展LLM推理的重要路径：从“下一词预测”模型发展为具备交互性与自主性的agentic系统，实现更复杂推理与决策[k]。

这类系统引入新挑战，如工作流设计与动作协调[k]。

单智能体系统
单一LLM与外部工具交互以增强推理、行为与感知能力。常用工具包括：
— 外部知识库
— 验证器
— 实用型应用（如代码解释器、日历、地图）[k]。

代表性系统包括：
— Grok 3 Deep Search（2025年2月）
— OpenAI Deep Research（2025年2月）[k]。

这些系统展示LLM如何通过浏览器、Python工具等获取多源信息，执行信息检索与计算任务，提升推理性能[k]。

“Deep Research可自主发现、推理并整合网络洞见。它在多个需使用浏览器与Python工具的真实任务上训练……虽然o1在技术领域表现优异，但现实挑战更依赖广泛上下文与多源信息。”
——OpenAI Deep Research发布博客[k]

多智能体系统
允许多个智能体之间通信与协作，每个智能体承担特定角色，通过消息交换完成任务[k]。

关键挑战包括：
— 设计高效通信协议（协同式或对抗式）
— 协调动作并达成共识[k]。

典型案例为多智能体产品Manus，展现了该架构在实际应用中的强大潜力[k]。

1.3 统一视角（Unified Perspectives）

尽管“推理扩展”与“学习推理”路径不同，二者本质互补且可统一：推理扩展聚焦于选出最优推理路径[k]。

大语言模型推理技术的统一框架与研究进展

大语言模型（LLM）推理研究近年来快速发展，本文系统梳理了自思维链（CoT）提出以来的关键算法与代表性成果，涵盖机制与架构两大维度[k]。

学习推理方法利用“好路径”和“坏路径”作为训练数据，以增强模型的推理能力[k]。从输入与输出两个视角可统一现有技术路径：
输入视角聚焦提示的修改与增强，以引导模型走向期望的推理方向；输出视角则通过生成多个候选结果，并进行评估、排序或精炼来优化输出质量[k]。

该框架揭示：推理扩展技术可用于生成学习所需的推理轨迹，而学习所得模型又可反哺测试阶段的推理过程，由此催生“面向推理扩展的学习推理方法”研究方向[k]。

此统一视角适用于不同系统架构：
在独立式LLM中沿用输入/输出范式；在单智能体系统中，输入对应“感知”，输出对应“行动”；在多智能体系统中，输入为“通信”，输出为“协调行动”[k]。

上述类比构建了一个可系统化与可泛化的LLM推理分析工具，为跨机制与跨架构研究提供认知基础[k]。

综述目标与结构

本文旨在全面总结LLM推理领域的最新进展，重点包括推理扩展（第3节）、推理器与验证器的学习算法（第4节）、学习推理方法（第5节），并在第6节归纳未来挑战[k]。

整体结构围绕机制与架构双维度展开，覆盖独立LLM、单智能体及多智能体系统三大架构类型[k]。

与已有综述的比较

已有综述多聚焦非形式逻辑推理、提示工程或自然语言推理的形式分类[k]。技术层面，上下文学习（ICL）与生成算法亦被广泛回顾[k]。

随着推理型语言模型（RLMs）兴起，学习推理成为主流方向，相关研究逐步深入[k]。Besta等（2025）虽提出模块化RLM框架，但未涵盖智能体与多智能体系统[k]。

尽管agent系统综述众多，但鲜少聚焦其内部推理机制[k]。因此，本文聚焦两大演进方向：
一是推理机制从“推理扩展”到“学习推理”的发展；
二是系统架构从“独立LLM”向“多智能体系统”的演进[k]。

在此框架下，本文系统分析输入/输出视角下的核心技术，探讨精炼器与验证器的作用，并比较多种学习算法（如强化学习）的优劣[k]。

本综述为AI研究者提供最新洞察，未来可延伸至人机协作模式与自动化工作流设计等方向[k]。

转载出于非商业性教育科研目的，仅为学术信息传播，版权归原作者所有，侵权请联系删除[k]。

【声明】内容源于网络

中国人工智能学会

中国人工智能学会官方订阅号，为广大智能科技工作者提供前沿资讯，学术分享，科普信息的的多媒体平管

内容 8182

粉丝 0

中国人工智能学会中国人工智能学会官方订阅号，为广大智能科技工作者提供前沿资讯，学术分享，科普信息的的多媒体平管

总阅读66.8k

粉丝0

内容8.2k

学术分享丨大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统