由于微信公众号开始试行乱序推送,为了让您在第一时间获取AI新文,请将"AI新文"设为星标。
通过理性策略梯度实现稳健且多样化的多智能体学习
原标题:Robust and Diverse Multi-Agent Learning via Rational Policy Gradient
作者:Niklas Lauffer;Ameesh Shah;Micah Carroll;Sanjit A. Seshia;Stuart Russell;Michael Dennis
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/11/12
摘要:对抗性优化算法已被成功应用于多智能体环境中寻找稳健且多样化的策略(这些算法明确地搜索智能体策略中的缺陷)。然而,对抗优化的成功主要局限于零和博弈情境中,因为在合作环境中其简单应用会导致一个关键的失败模式:智能体受到不合理激励去自我破坏,阻碍任务完成并阻止进一步学习。为了解决这个问题,我们引入了理性保持策略优化(RPO),这是一种对抗性优化的形式化方法,通过确保智能体保持理性来避免自我破坏——也就是说,他们的策略相对于某些可能的伙伴策略是最优的。为了解决RPO问题,我们开发了理性策略梯度(RPG),该方法训练智能体在经过修改的原始游戏中最大化自身的奖励,在此版本中我们使用对手塑形技术来优化对抗性目标。RPG使我们能够扩展各种现有的对抗优化算法,这些算法不再受自毁的限制,可以找到对抗样本,提高鲁棒性和适应性,并学习多样化的策略。我们实证验证了我们的方法在几个流行的协作性和一般和环境(general-sum environments)中取得了强大的性能。我们的项目页面可以在https://rational-policy-gradient.github.io/找到。
原文链接
去中心化多智能体随机最短路径问题的遗憾下界
原标题:Regret Lower Bounds for Decentralized Multi-Agent Stochastic Shortest Path Problems
作者:Utkarsh U. Chavan;Prashant Trivedi;Nyala Hemachra
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/11/06
摘要:多智能体系统(MAS)在诸如群机器人和交通路由的应用中至关重要,在这些应用中,智能体必须以去中心化的方式协调以实现共同目标。随机最短路径(SSP)问题为在这种设置中建模分散控制提供了自然的框架。尽管在单一智能体环境中SSP中的学习问题已经得到了广泛的研究,去中心化的多智能体变体仍然很大程度上未被探索。在这项工作中,我们朝着填补这一空白迈进了一步。我们研究在线性函数近似下的分散式多智能体SSP(Dec-MASSPs),其中过渡动态和成本使用线性模型表示。运用新颖的基于对称性的论据,我们确定了最优政策的结构。我们的主要贡献是基于对任何数量的智能体人的难以学习实例的构造,提出了在这种设置下的第一个遗憾下界,n。我们在K个episode上的遗憾下界为
,突显了在Dec-MASSPs中固有的学习难度。这些见解阐明了分散控制的学习复杂性,并可以进一步指导多智能体系统中高效学习算法的设计。
原文链接
GauDP:通过高斯图像协同作用重塑多智能体协作扩散政策
原标题:GauDP: Reinventing Multi-Agent Collaboration through Gaussian-Image Synergy in Diffusion Policies
作者:Ziye Wang;Li Kang;Yiran Qin;Jiahua Ma;Zhanglin Peng;Lei Bai;Ruimao Zhang
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/11/02
摘要:最近,在具身多智能体系统中有效协调仍然是一项基本挑战,特别是在智能体必须平衡个体视角与全局环境意识的情景中。现有方法常常难以在精细的局部控制与全面的场景理解之间取得平衡,导致可扩展性受限以及协作质量下降。在本文中,我们介绍了GauDP,一种新颖的高斯图像协同表示方法,该方法促进了多智能体协作系统中的可扩展感知意识模仿学习。具体来说,GauDP 从分散的 RGB 观察构建一个全局一致的三维高斯场,然后动态地重新分配三维高斯属性到每个智能体的局部视角。这使得所有智能体都能够从共享的场景表示中自适应地查询任务关键特征的同时保持各自的视角。这种设计既便于精细控制又保证全局行为的一致性而不需额外的传感模式(例如,3D点云)。我们在RoboFactory基准上评估GauDP,该基准包括各种多臂操作任务。我们的方法在现有基于图像的方法之上取得了更优的表现,并接近了基于点云的方法的效果,同时随着智能体数量的增加保持了强大的可扩展性。
原文链接
顺序多智能体动态算法配置
原标题:Sequential Multi-Agent Dynamic Algorithm Configuration
作者:Chen Lu;Ke Xue;Lei Yuan;Yao Wang;Yaoyuan Wang;Sheng Fu;Chao Qian
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/10/27
摘要:动态算法配置(DAC)是自动化机器学习领域的近期趋势,可以在执行过程中动态调整算法的配置,并减轻用户繁琐的试错调参任务。最近,多智能体强化学习(MARL)方法改进了多个异构超参数的配置,使得对复杂算法的各种参数配置成为可能。然而,许多复杂的算法在多个参数之间存在内在的相互依赖关系(例如,首先确定操作类型然后是操作的参数),但这些在以前的方法中并未被考虑,从而导致次优的结果。在本文中,我们提出顺序多智能体DAC(Seq-MADAC)框架来解决此问题,通过考虑多个参数内在的相互依赖性。我们提出了一种顺序优势分解网络,该网络可以通过顺序优势分解利用行动顺序信息。从合成函数到多目标优化算法配置的实验表明,Seq-MADAC的表现优于最先进的多智能体强化学习方法,并在问题类别上表现出强大的泛化能力。Seq-MADAC 建立了新的依赖感知自动化算法配置的范式。我们的代码可在https://github.com/lamda-bbo/seq-madac获取。
原文链接
用于辅助可穿戴智能体的自回归多模态目标推理基准测试
原标题:Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents
作者:Vijay Veerabadran;Fanyi Xiao;Nitin Kamra;Pedro Matias;Joy Chen;Caley Drooff;Brett D Roads;Riley Williams;Ethan Henderson;Xuanyi Zhao;Kevin Carlberg;Joseph Tighe;Karl Ridgeway
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/10/25
摘要:人们对辅助型可穿戴智能体的兴趣激增:以可穿戴形式存在的智能体(例如智能眼镜),它们采取行动帮助用户实现目标或回答查询(例如我把钥匙放在哪里了?在这项工作中,我们考虑了从多模态情境观察中推断出该目标的重要互补问题。解决这个"目标推理"问题有望消除与这样的智能体交互所需的努力。本研究致力于创建WAGIBench,一个强大的基准测试,用于衡量使用视觉-语言模型(VLMs)解决此问题的进展。鉴于这一领域的先前工作有限,我们收集了一个新颖的数据集,该数据集包含来自348名参与者在3,477个记录中的29小时多模态数据,其中包括真实目标以及伴随的视觉、音频、数字和纵向背景观察。我们验证了人类的表现超过了模型的表现,达到了93%的选择题准确率,而表现最好的视觉语言模型(VLM)的准确率为84%。生成基准测试结果评估了几种现代视觉-语言模型家族显示更大的模型在任务上表现显著更好但仍远未达到实用的有用性因为他们仅在55%的时间产生相关目标。通过模态消融,我们表明模型从相关模态中的额外信息中获益,并且来自不相关模态的性能下降最小。
原文链接
Memo:使用强化学习训练内存高效的具身智能体
原标题:Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning
作者:Gunshi Gupta;Karmesh Yadav;Zsolt Kira;Yarin Gal;Rahaf Aljundi
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/10/22
摘要:为了使实体智能体能够在较长的时间范围内有效运行,开发能够形成和访问记忆以保持其环境中的上下文的模型至关重要。在当前基于Transformer训练策略的范式中,用于具身序列决策任务时,视觉输入常常超过Transformer的上下文限制,而人类可以保持并利用压缩为记忆的一生经验。原则上可以实现显著的压缩,因为输入中的许多内容无关紧要并且可以被抽象化。然而,现有方法主要侧重于固定大小内存的循环模型或依赖全上下文的Transformer。在这项工作中,我们提出了Memo,一种基于Transformer的架构和训练配方,用于内存密集型、长周期的任务上的强化学习(RL)。备忘录通过在训练过程中将周期性总结令牌与模型输入交错,来实现记忆的创建和检索。我们通过一个网格世界元强化学习基准和在照片般逼真的室内环境中多对象导航任务展示了Memo的有效性。备忘录优于简单的长上下文Transformer基线,同时在计算和存储效率上更高。此外,Memo 在推理时对更长的上下文泛化得更好,并且在流式设置中保持稳健,在这种设置下,历史上下文必须被截断以适应推理约束。我们的代码可在此获取: https://github.com/gunshi/memo。
原文链接
VAGEN:为多回合虚拟语言模型智能体增强世界模型推理能力
原标题:VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents
作者:Kangrui Wang;Pingyue Zhang;Zihan Wang;Yaning Gao;Linjie Li;Qineng Wang;Hanyang Chen;Chi Wan;Yiping Lu;Zhengyuan Yang;Lijuan Wang;Ranjay Krishna;Jiajun Wu;Li Fei-Fei;Yejin Choi;Manling Li
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/10/19
摘要:训练视觉-语言模型(VLM)智能体相比训练语言模型(LLM)智能体的关键挑战在于从文本状态转向复杂的视觉观察。这一过渡引入了部分可观测性,并要求强大的世界建模。我们问:VLM智能体能否通过明确的视觉状态推理构建内部世界模型?为了解决这个问题,我们通过强化学习(RL)架构上强制并奖励智能体的推理过程,将其表述为部分可观察马尔可夫决策过程(POMDP)。我们发现将智能体人的推理分解为状态估计("当前的状态是什么?")和转换建模("接下来会发生什么?")对于成功至关重要,这一结论通过五种推理策略得到了证明。我们对智能体如何表示内部信念的调查表明,最优表示是任务依赖的:自然语言在一般任务中擅长捕捉语义关系,而结构化格式对于精确操作和控制不可或缺。基于这些见解,我们设计了一个世界建模奖励,它提供了密集的回合级监督,用于准确的状态预测,并引入了双层优势估计(Bi-Level GAE),用于意识回合的信用分配通过这种视觉状态推理形式,一个3B参数模型在五个不同的智能体基准测试中获得了0.82的得分,比未经训练的同类模型(0.21)提高了约3倍,并且超过了专有的推理模型如GPT-5(0.75)、Gemini 2.5 Pro(0.67)和Claude 4.5(0.62)。所有实验都在我们的VAGEN框架内进行,这是一个可扩展的系统,用于训练和分析在多种视觉环境中工作的多轮次视觉语言模型智能体。代码和数据可在https://vagen-ai.github.io/上获取。
原文链接
智能体的自动化组合:用于智能体组件选择的背包方法
原标题:Automated Composition of Agents: A Knapsack Approach for Agentic Component Selection
作者:Michelle Yuan;Khushbu Pahwa;Shuaichen Chang;Mustafa Kaba;Jiarong Jiang;Xiaofei Ma;Yi Zhang;Monica Sunkara
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/10/18
摘要:设计有效的智能体系统需要在动态和不确定的环境中无缝地组合和集成智能体(agent)、工具和模型。大多数现有方法依赖于静态、语义检索方法来发现工具或智能体。然而,由于现有组件的能力描述不完整以及检索方法的限制,有效重用和组合这些组件仍然具有挑战性。组件选择受到影响,因为这些决策不是基于能力、成本和实时效用。为了解决这些挑战,我们引入了一个受背包问题启发的结构化自动化智能体系统组合框架我们的框架使一个作曲智能体能够系统地识别、选择并组装一组最优的智能体组件,同时考虑性能、预算限制和兼容性。通过动态测试候选组件并在实时中建模其效用,我们的方法简化了智能体系统的组装,并促进了资源的可扩展重用。实证评估显示,在五个基准数据集上使用Claude 3.5 Sonnet时,我们的基于在线背包问题的合成器始终位于帕累托前沿,相比我们的基线方法,在显著更低的组件成本下实现了更高的成功率。在单智能体设置中,在线背包组合器相比检索基线显示出高达31.6%的成功率提升。在多智能体系统中,在从包含100+个智能体的智能体库存中选择智能体时,在线背包组合器将成功率从37%提高到87%。显著的性能差距证实了我们的方法在不同的领域和预算限制下具有强大的适应性。
原文链接
ESCA:通过场景图生成赋予实体智能体情境
原标题:ESCA: Contextualizing Embodied Agents via Scene-Graph Generation
作者:Jiani Huang;Amish Sethi;Matthew Kuo;Mayank Keoliya;Neelay Velingker;JungHo Jung;Ser-Nam Lim;Ziyang Li;Mayur Naik
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/10/11
摘要:多模态大语言模型(MLLMs)正在向着通用具身智能体快速进步。然而,现有的多模态语言和视觉模型并不能可靠地捕捉低级视觉特征和高级文本语义之间的细微联系,导致弱关联和不准确的感知。为了解决这一挑战,我们提出了ESCA,一个通过在时空场景图中定位感知来使具身智能体处于上下文环境中的框架。其核心是SGCLIP,一种新型的开放领域可提示基础模型,用于生成场景图,该模型基于CLIP。SGCLIP 使用神经符号管道训练,该管道利用模型自动生成的字幕与模型自身生成的场景图对齐,消除了对人工标注的需求,训练数据包括87K+开放领域视频。我们证明了SGCLIP在基于提示的推理和特定任务的微调方面都表现出色,在场景图生成和动作定位基准测试中取得了最先进的结果。基于开源和商用多模态大型语言模型(MLLMs),SGCLIP增强的ESCA改善了具身智能体的感知能力,在两个具身环境中均达到了最先进的性能。值得注意的是,ESCA显著减少了智能体感知错误,并使开源模型超越了专有基准。我们在https://github.com/video-fm/LASER发布了 SGCLIP 模型训练的源代码,并在https://github.com/video-fm/ESCA发布了具身智能体的源代码。
原文链接
MAT-Agent:自适应多智能体训练优化
原标题:MAT-Agent: Adaptive Multi-Agent Training Optimization
作者:Jusheng Zhang;Kaitong Cai;Yijia Fan;Ningyuan Liu;Keze Wang
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/10/10
摘要:多标签图像分类需要适应性的训练策略来应对复杂的、不断演变的视觉语义景观,然而传统方法依赖于静态配置,在动态环境中表现不佳。我们提出MAT-Agent,一种新颖的多智能体框架,它将训练重新构想为一个协作的实时优化过程。通过部署自主智能体来动态调整数据增强(optimizers)、优化器(optimizers)、学习率和损失函数(loss functions),MAT-Agent利用非平稳多臂赌博机算法平衡探索和开发,指导原则是由准确率、稀有类别性能和训练稳定性组成的复合奖励。通过双速率指数移动平均平滑和混合精度训练增强,它确保了鲁棒性和效率。广泛的实验在Pascal VOC、COCO和VG-256上展示了MAT-Agent的优越性:它达到了mAP为97.4(vs.在Pascal VOC上,PAT-T的mAP值为96.2,OF1的mAP值为92.3,CF1的mAP值为91.4;mAP为92.8( vs.在COCO上HSQ-CvN的mAP为92.0,OF1为88.2,CF1为87.1;在VG-256上mAP为60.9,OF1为70.8,CF1为61.1通过加速收敛和稳健的跨领域泛化,MAT-Agent 提供了一种可扩展的智能解决方案,用于优化复杂的视觉模型,为自适应深度学习的发展铺平了道路。
原文链接
针对复杂自然语言处理任务的基于信念校准的多智能体共识寻求机制
原标题:Belief-Calibrated Multi-Agent Consensus Seeking for Complex NLP Tasks
作者:Wentao Deng;Jiahuan Pei;Zhiwei Xu;Zhaochun Ren;Zhumin Chen;Pengjie Ren
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/10/07
摘要:一个多智能体系统(MAS)通过多个智能体之间的协作增强了其解决复杂自然语言处理(NLP)任务的能力,在此过程中寻求共识作为基本机制。然而,现有的寻求共识的方法通常依赖于投票机制来判断共识,忽视了系统内部信念中的矛盾,这些矛盾会破坏共识。此外,这些方法通常涉及智能体通过与每一个其他智能体无选择的合作来更新他们的结果。这样的统一交互无法识别每个智能体的最佳合作者,阻碍了稳定共识的形成。为了解决这些挑战,我们提供了一个理论框架用于选择能够最大化共识稳定的最优合作者。基于这些定理,我们提出了信念校准共识寻求(BCCS)框架,通过选择最优合作者并通过系统内部信念校准共识判断来促进稳定的共识。在MATH和MMLU基准数据集上的实验结果表明,所提出的BCCS框架分别在具有挑战性的任务上比现有最佳结果高出2.23%和3.95%的准确率。我们的代码和数据可在https://github.com/dengwentao99/BCCS上获取。
原文链接
PANDA:通过智能体人工智能工程师实现通用视频异常检测
原标题:PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer
作者:Zhiwei Yang;Chen Gao;Mike Zheng Shou
期刊:Conference and Workshop on Neural Information Processing Systems
出版时间:2025/09/30
摘要:视频异常检测(VAD)由于现实世界场景的复杂性和多样性而成为一个关键且具有挑战性的任务。先前的方法通常依赖于特定领域的训练数据以及在应用于新场景和未见异常类型时的手动调整,遭受高昂的劳动力成本和有限的泛化能力。因此,我们旨在实现通用型VAD,即在没有训练数据或人工干预的情况下自动处理任何场景和任何异常类型。在这项工作中,我们提出了PANDA,一个基于多模态大型语言模型的智能体智能工程师。我们通过全面设计四种关键能力实现了PANDA:(1) 自适应场景感知策略规划,(2) 目标驱动的启发式推理,(3) 工具增强的自我反思,以及 (4) 自我改进的记忆链。具体来说,我们开发了一种自适应的场景感知RAG机制,使PANDA能够检索异常特定的知识用于异常检测策略规划。接下来,我们介绍一种隐含异常引导的启发式提示策略以增强推理精度。此外,PANDA 采用了一种渐进式反馈机制,并辅以一系列上下文感知工具,以迭代地完善复杂场景中的决策制定。最后,一种记忆链机制使PANDA能够利用历史经验进行持续性能改进。广泛的实验表明,PANDA 在多场景、开放集以及复杂场景设置中实现了最先进的性能,无需训练和人工干预,验证了其通用性和鲁棒性的异常检测能力。代码在https://github.com/showlab/PANDA上释放。
原文链接

