

突破思维定式，通过多样化多智能体辩论提高推理能力

USTC大规模智算实验室

2025-10-22

导读：突破思维定式，通过多样化多智能体辩论提高推理能力

当下，大语言模型（LLMS）已经取得了很多成果，但面对一些推理问题哪怕迭代多轮仍然不得正解。经实验探究发现，目前的大语言模型往往采用相同的推理方法，容易形成思维定式，导致模型效果有限。为解决这个问题，本文在多智能体辩论（MAD）的基础上做了改进，通过引入多样的推理方法构建出多样化多智能体辩论（DMAD），以求取得更好的效果。

一、思维定式（Mental Set）

思维定式的定义为：记模型采用推理方法，其多轮迭代始终无法得解的问题形成的问题集记为，各模型都无法解决的公共难题。若问题，但，称为的思维定式问题。

思维定式的存在表明，有些模型迭代多轮始终无法得解的问题，可以通过更换推理方法的方式得到解决。

为了证明思维定式的存在，本文测试了使用不同推理方法的MAD基础模型的思维定式问题的数量，结果如下图所示。

其中，CoT、SBP、PoT代表三种不同的推理方法，DMAD即本文提出的使用多种推理方式的MAD（多智能体辩论方法）。从表中可以看出，MAD无论使用哪种单一的推理方法，其总会出现思维定式问题，并且这些思维定式问题可以通过切换推理方法的方式解决。例如，使用CoT的MAD存在70个思维定式问题，而通过切换为PoT方法，这其中的49个问题就可以得到解决。

二、算法分析

DMAD的算法如下：

我们对其中出现的符号先做一个整体的阐释。表示第个智能体迭代第轮的推理过程；表示输入的问题；表示推理方法；表示第个智能体迭代第轮的推理结果；表示第个智能体迭代第轮的信息；表示所有智能体在某一轮的信息；表示历史信息，初始为空，后续以扩展形式更新，表现形式上，前者为自身信息，后者为其它智能体的信息；表示第轮迭代最终确认总结出的答案；表示裁定答案的方式。

在迭代前，我们要先决定个智能体使用的个推理方法。随后在轮迭代中，到行记录了每个智能体的推理过程及推理结果，其主要影响因素为智能体使用的推理方式及历史信息，由于历史信息中包含了其它智能体的信息，所以这种方式形成了多智能体之间的交互。第行实现了信息的记录，信息中包括了问题、推理信息及推理结果。到行对历史记录进行了更新。第行参照本轮所有智能体的推理结果得出本轮的最终答案。

三、实验设置

1.LLMS实验

本实验使用的模型为GPT-4o-mini-2024-07-18与LLaMA-3-70B-Instruct，采用了三种不同的推理方式，分别为CoT（Chain-of-Thought Prompting，思维链），通过逐步推理求解问题；SBP（Step-Bcak Prompting，回溯提示），先提炼高层抽象概念（如问题涉及的原理），再基于概念求解；PoT（Program of Thoughts Prompting，程序思维），生成可执行Python程序计算结果，结果存储于变量“ans”中。

基线目标设置上，主要考虑了SC（Self-Consistency，自一致提示）方法，这是一种集成方法，通过对同一输入进行输出采样，生成多条独立的思维链；Self-Refine（自我反思），这种方法形成了“生成→评估→优化”三步自我反思流程；Self-Contrast（自我比较），这种方法对比多个推理解，提炼差异并修正至一致；MRP（Meta-Reasoning Prompting，元推理），这是一种动态选择最适推理方法。而测试数据集则使用了MATH（高中数学竞赛题）和GPQA（研究生级多选）。实验的结果如下。

可以看出DMAD的平均准确率高于绝大多数基线方法，并且在复杂推理任务上表现出色。

2.MLLMS实验

本实验使用的模型为LLaVA-1.6-13B、Gemini-1.5-Flash和GPT-4o。使用的推理方法有：IO（Input/Output Standard Prompting，标准输入输出），基础的标准输入输出提示方法；CCoT（Compositional Chain-of-Thought，压缩思维链），先以json格式生成图像场景图，再结合场景图推理，侧重视觉理解：DDCoT（Duty-Distinct Chain-of-Thought，各司其职式思维链），先将问题拆解为子问题并回答，再整合结果，侧重文本理解。使用的数据集为ScienceQA（多模态科学问题集）和MM-Vet（复杂多模态任务集）。测试的结果如下:

可以看出，在多模态任务上，DMAD仍然表现出色，其准确率领先大多数基线方法。

四、讨论

关于辩论轮数，DMAD的性能随轮次增加而提升，且在更少轮次内超越传统MAD。传统MAD5轮内达成的效果，DMAD有时2轮内即可达成，并且还有进一步的进步空间。

推理方法数量上，随着推理方法的增多，DMAD的性能也随之提升，说明多智能体多方法的信息交互对于性能的提升有着重要作用。

五、结论

多样化多智能体辩论（DMAD）是一种改进的多智能体辩论（MAD）框架，通过采用多样化的推理方法来打破思维定式并提升推理能力。DMAD中每个智能体使用不同的方法进行思考，从其他智能体中提取有用信息，获得新视角，修正自身的解答。大量实验表明，该方法具有显著的有效性和良好的泛化能力。

论文原文：BREAKING MENTAL SET TO IMPROVE REASONING THROUGH DIVERSE MULTI-AGENT DEBATE(ICLR 2025)

分享人：张忱昊

【声明】内容源于网络

USTC大规模智算实验室

大规模计算智能（LIC）实验室由包括中科大在内的多所高校教授联合共建，主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑，以多名硕博组成的高素质团队为人才基础，参与过多项重点项目，发表过多篇高水平论文。

内容 14

粉丝 0

USTC大规模智算实验室大规模计算智能（LIC）实验室由包括中科大在内的多所高校教授联合共建，主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑，以多名硕博组成的高素质团队为人才基础，参与过多项重点项目，发表过多篇高水平论文。

总阅读11

粉丝0

内容14