大数跨境
0
0

突破思维定式,通过多样化多智能体辩论提高推理能力

突破思维定式,通过多样化多智能体辩论提高推理能力 USTC大规模智算实验室
2025-10-22
0
导读:突破思维定式,通过多样化多智能体辩论提高推理能力

当下,大语言模型(LLMS)已经取得了很多成果,但面对一些推理问题哪怕迭代多轮仍然不得正解。经实验探究发现,目前的大语言模型往往采用相同的推理方法,容易形成思维定式,导致模型效果有限。为解决这个问题,本文在多智能体辩论(MAD)的基础上做了改进,通过引入多样的推理方法构建出多样化多智能体辩论(DMAD),以求取得更好的效果。

一、思维定式(Mental Set

思维定式的定义为:记模型采用推理方法,其多轮迭代始终无法得解的问题形成的问题集记为,各模型都无法解决的公共难题若问题,但,称思维定式问题

思维定式的存在表明,有些模型迭代多轮始终无法得解的问题,可以通过更换推理方法的方式得到解决。

为了证明思维定式的存在,本文测试了使用不同推理方法的MAD基础模型的思维定式问题的数量,结果如下图所示。

其中,CoT、SBP、PoT代表三种不同的推理方法,DMAD即本文提出的使用多种推理方式的MAD(多智能体辩论方法)。从表中可以看出,MAD无论使用哪种单一的推理方法,其总会出现思维定式问题,并且这些思维定式问题可以通过切换推理方法的方式解决。例如,使用CoT的MAD存在70个思维定式问题,而通过切换为PoT方法,这其中的49个问题就可以得到解决。

二、算法分析

DMAD的算法如下:

我们对其中出现的符号先做一个整体的阐释。表示第个智能体迭代第轮的推理过程;表示输入的问题;表示推理方法;表示个智能体迭代第轮的推理结果;表示个智能体迭代第轮的信息;表示所有智能体在某一轮的信息;表示历史信息,初始为空,后续以扩展形式更新,表现形式上,前者为自身信息,后者为其它智能体的信息;表示第轮迭代最终确认总结出的答案;表示裁定答案的方式。

在迭代前,我们要先决定个智能体使用的个推理方法。随后在轮迭代中,行记录了每个智能体的推理过程及推理结果,其主要影响因素为智能体使用的推理方式及历史信息,由于历史信息中包含了其它智能体的信息,所以这种方式形成了多智能体之间的交互。第行实现了信息的记录,信息中包括了问题、推理信息及推理结果。行对历史记录进行了更新。第行参照本轮所有智能体的推理结果得出本轮的最终答案。

三、实验设置

1.LLMS实验

本实验使用的模型为GPT-4o-mini-2024-07-18与LLaMA-3-70B-Instruct,采用了三种不同的推理方式,分别为CoT(Chain-of-Thought Prompting,思维链),通过逐步推理求解问题;SBP(Step-Bcak Prompting,回溯提示,先提炼高层抽象概念(如问题涉及的原理),再基于概念求解;PoT(Program of Thoughts Prompting,程序思维,生成可执行Python程序计算结果,结果存储于变量“ans”中。

基线目标设置上,主要考虑了SC(Self-Consistency,自一致提示方法,这是一种集成方法,通过对同一输入进行输出采样,生成多条独立的思维链;Self-Refine(自我反思),这种方法形成了“生成→评估→优化”三步自我反思流程;Self-Contrast(自我比较),这种方法对比多个推理解,提炼差异并修正至一致;MRP(Meta-Reasoning Prompting,元推理),这是一种动态选择最适推理方法。而测试数据集则使用了MATH(高中数学竞赛题)和GPQA(研究生级多选)。实验的结果如下。

可以看出DMAD的平均准确率高于绝大多数基线方法,并且在复杂推理任务上表现出色。

2.MLLMS实验

本实验使用的模型为LLaVA-1.6-13B、Gemini-1.5-Flash和GPT-4o。使用的推理方法有:IO(Input/Output Standard Prompting,标准输入输出),基础的标准输入输出提示方法;CCoT(Compositional Chain-of-Thought,压缩思维链),先以json格式生成图像场景图,再结合场景图推理,侧重视觉理解:DDCoT(Duty-Distinct Chain-of-Thought,各司其职式思维链),先将问题拆解为子问题并回答,再整合结果,侧重文本理解。使用的数据集为ScienceQA(多模态科学问题集)和MM-Vet(复杂多模态任务集)。测试的结果如下:

可以看出,在多模态任务上,DMAD仍然表现出色,其准确率领先大多数基线方法。

四、讨论

 

关于辩论轮数,DMAD性能随轮次增加而提升,且在更少轮次内超越传统MAD。传统MAD5轮内达成的效果,DMAD有时2轮内即可达成,并且还有进一步的进步空间。

推理方法数量上,随着推理方法的增多,DMAD的性能也随之提升,说明多智能体多方法的信息交互对于性能的提升有着重要作用。

五、结论

多样化多智能体辩论(DMAD)是一种改进的多智能体辩论(MAD)框架,通过采用多样化的推理方法来打破思维定式并提升推理能力。DMAD每个智能体使用不同的方法进行思考,从其他智能体中提取有用信息,获得新视角,修正自身的解答。大量实验表明,该方法具有显著的有效性和良好的泛化能力


论文原文:BREAKING MENTAL SET TO IMPROVE REASONING THROUGH DIVERSE MULTI-AGENT DEBATE(ICLR 2025)

分享人:张忱昊 

【声明】内容源于网络
0
0
USTC大规模智算实验室
大规模计算智能(LIC)实验室由包括中科大在内的多所高校教授联合共建,主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑,以多名硕博组成的高素质团队为人才基础,参与过多项重点项目,发表过多篇高水平论文。
内容 14
粉丝 0
USTC大规模智算实验室 大规模计算智能(LIC)实验室由包括中科大在内的多所高校教授联合共建,主要研究方向有系统网络、联邦学习和大模型AI。实验室以智算网络系统平台为硬件支撑,以多名硕博组成的高素质团队为人才基础,参与过多项重点项目,发表过多篇高水平论文。
总阅读11
粉丝0
内容14