当下,大语言模型(LLMS)已经取得了很多成果,但面对一些推理问题哪怕迭代多轮仍然不得正解。经实验探究发现,目前的大语言模型往往采用相同的推理方法,容易形成思维定式,导致模型效果有限。为解决这个问题,本文在多智能体辩论(MAD)的基础上做了改进,通过引入多样的推理方法构建出多样化多智能体辩论(DMAD),以求取得更好的效果。
一、思维定式(Mental Set)
思维定式的定义为:记
模型采用推理方法
,其多轮迭代始终无法得解的问题形成的问题集记为
,各模型都无法解决的公共难题
。若问题
,但
,称
为
的思维定式问题。
思维定式的存在表明,有些模型迭代多轮始终无法得解的问题,可以通过更换推理方法的方式得到解决。
为了证明思维定式的存在,本文测试了使用不同推理方法的MAD基础模型的思维定式问题的数量,结果如下图所示。

其中,CoT、SBP、PoT代表三种不同的推理方法,DMAD即本文提出的使用多种推理方式的MAD(多智能体辩论方法)。从表中可以看出,MAD无论使用哪种单一的推理方法,其总会出现思维定式问题,并且这些思维定式问题可以通过切换推理方法的方式解决。例如,使用CoT的MAD存在70个思维定式问题,而通过切换为PoT方法,这其中的49个问题就可以得到解决。
二、算法分析
DMAD的算法如下:

我们对其中出现的符号先做一个整体的阐释。
表示第
个智能体迭代第
轮的推理过程;
表示输入的问题;
表示推理方法;
表示第
个智能体迭代第
轮的推理结果;
表示第
个智能体迭代第
轮的信息;
表示所有智能体在某一轮的信息;
表示历史信息,初始为空,后续以扩展
形式更新,表现形式上,前者为自身信息,后者为其它智能体的信息;
表示第
轮迭代最终确认总结出的答案;
表示裁定答案的方式。
在迭代前,我们要先决定
个智能体使用的
个推理方法。随后在
轮迭代中,
到
行记录了每个智能体的推理过程及推理结果,其主要影响因素为智能体使用的推理方式及历史信息,由于历史信息中包含了其它智能体的信息,所以这种方式形成了多智能体之间的交互。第
行实现了信息的记录,
信息中包括了问题、推理信息及推理结果。
到
行对历史记录进行了更新。第
行参照本轮所有智能体的推理结果得出本轮的最终答案。
三、实验设置
1.LLMS实验
本实验使用的模型为GPT-4o-mini-2024-07-18与LLaMA-3-70B-Instruct,采用了三种不同的推理方式,分别为CoT(Chain-of-Thought Prompting,思维链),通过逐步推理求解问题;SBP(Step-Bcak Prompting,回溯提示),先提炼高层抽象概念(如问题涉及的原理),再基于概念求解;PoT(Program of Thoughts Prompting,程序思维),生成可执行Python程序计算结果,结果存储于变量“ans”中。
基线目标设置上,主要考虑了SC(Self-Consistency,自一致提示)方法,这是一种集成方法,通过对同一输入进行输出采样,生成多条独立的思维链;Self-Refine(自我反思),这种方法形成了“生成→评估→优化”三步自我反思流程;Self-Contrast(自我比较),这种方法对比多个推理解,提炼差异并修正至一致;MRP(Meta-Reasoning Prompting,元推理),这是一种动态选择最适推理方法。而测试数据集则使用了MATH(高中数学竞赛题)和GPQA(研究生级多选)。实验的结果如下。


可以看出DMAD的平均准确率高于绝大多数基线方法,并且在复杂推理任务上表现出色。
2.MLLMS实验
本实验使用的模型为LLaVA-1.6-13B、Gemini-1.5-Flash和GPT-4o。使用的推理方法有:IO(Input/Output Standard Prompting,标准输入输出),基础的标准输入输出提示方法;CCoT(Compositional Chain-of-Thought,压缩思维链),先以json格式生成图像场景图,再结合场景图推理,侧重视觉理解:DDCoT(Duty-Distinct Chain-of-Thought,各司其职式思维链),先将问题拆解为子问题并回答,再整合结果,侧重文本理解。使用的数据集为ScienceQA(多模态科学问题集)和MM-Vet(复杂多模态任务集)。测试的结果如下:

可以看出,在多模态任务上,DMAD仍然表现出色,其准确率领先大多数基线方法。
四、讨论

关于辩论轮数,DMAD的性能随轮次增加而提升,且在更少轮次内超越传统MAD。传统MAD5轮内达成的效果,DMAD有时2轮内即可达成,并且还有进一步的进步空间。

推理方法数量上,随着推理方法的增多,DMAD的性能也随之提升,说明多智能体多方法的信息交互对于性能的提升有着重要作用。
五、结论
多样化多智能体辩论(DMAD)是一种改进的多智能体辩论(MAD)框架,通过采用多样化的推理方法来打破思维定式并提升推理能力。DMAD中每个智能体使用不同的方法进行思考,从其他智能体中提取有用信息,获得新视角,修正自身的解答。大量实验表明,该方法具有显著的有效性和良好的泛化能力。
论文原文:BREAKING MENTAL SET TO IMPROVE REASONING THROUGH DIVERSE MULTI-AGENT DEBATE(ICLR 2025)
分享人:张忱昊

