机器学习算法与自然语言处理

2025-08-16

113

导读：AIResearch相关工作速览

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | RUC AI Box

作者｜刘奕宏白飞孙爽@中国人民大学

研究方向｜大语言模型

1. 赋能科学实验准备工作的多智能体框架

1.1 ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models

https://arxiv.org/abs/2404.07738

这篇论文提出了 ResearchAgent，一个利用大型语言模型（LLMs）协助研究人员生成研究想法的系统。它通过学术图谱和知识库中的实体信息增强 LLMs 的能力，模拟人类研究者的文献调研、跨领域知识融合和同行评审过程，自动完成从问题识别、方法开发到实验设计的全流程研究准备，并通过迭代优化提升想法质量。实验表明，ResearchAgent 在多学科领域的研究想法生成任务中显著优于基线模型，展现出更高的创新性、相关性和可行性，为科学研究的早期阶段提供了智能化、高效化的解决方案。

1.2 AutoSurvey: Large Language Models Can Automatically Write Surveys

https://arxiv.org/abs/2406.10252

这篇论文介绍了AutoSurvey，一种利用大型语言模型（LLM）自动生成全面文献综述的方法。AutoSurvey通过四个主要阶段（初始检索与大纲生成、分段草拟、整合与优化、严格评估与迭代）解决了传统综述撰写中的挑战，如上下文窗口限制、参数知识约束和缺乏评估基准。实验表明，AutoSurvey在生成速度、引用质量和内容质量上显著优于基于RAG的LLM方法，并接近人类水平，同时成本低至每篇综述1.2美元，耗时仅3分钟。此外，论文还提出了多LLM评估策略，确保生成内容符合学术标准，为快速发展的研究领域（如人工智能）提供了高效、可扩展的文献综述解决方案。

1.3 Agent Laboratory: Using LLM Agents as Research Assistants

https://arxiv.org/abs/2501.04227

这篇论文介绍了“Agent Laboratory”，一个基于大型语言模型（LLM）的自主研究框架，旨在加速科学发现过程。该框架通过三个阶段（文献综述、实验和报告撰写）协助研究人员完成从研究构想到最终成果的完整流程，并允许用户在每一步提供反馈以优化结果。实验表明，使用特定LLM（如o1-preview）时，Agent Laboratory能生成高质量的机器学习代码和研究报告，显著降低研究成本（相比传统方法减少84%），同时人类反馈的介入能进一步提升研究质量。此外，论文还评估了不同LLM后端的性能差异、自动化评审与人类评审的分歧，以及框架在MLE-Bench基准测试中的表现，展示了其在自动化研究任务中的潜力与局限性。

1.4 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

https://arxiv.org/abs/2408.06292

这篇论文提出了一个名为“AI Scientist”的框架，旨在通过大型语言模型（LLMs）实现完全自动化的科学研究过程。该框架能够自主生成研究想法、编写代码、执行实验、可视化结果并撰写完整的科学论文，同时还能通过模拟同行评审流程评估论文质量。论文展示了该框架在机器学习三个子领域（扩散模型、基于Transformer的语言模型和学习动态）中的应用，并以每篇论文低于15美元的成本生成了高质量的研究成果。此外，论文还介绍了一个基于LLM的自动化评审系统，其性能接近人类评审水平。

1.5 BioInformatics Agent (BIA): Unleashing the Power of Large Language Models to Reshape Bioinformatics Workflow

https://doi.org/10.1101/2024.05.22.595240

这篇论文介绍了BioInformatics Agent (BIA)，一个基于大型语言模型（LLMs）的智能代理，旨在通过自然语言交互简化生物信息学工作流程。BIA的核心功能包括原始数据和元数据的提取与处理、本地和公共数据库的查询、工作流设计、可执行代码生成以及综合分析报告的生成。论文以单细胞RNA测序（scRNA-seq）数据为例，展示了BIA在信息处理、任务执行和交互方面的卓越能力，同时也分析了其执行失败的情况并提出了自我优化和领域适应等改进策略。未来，BIA计划扩展到多组学数据分析，以减轻生物信息学社区的工作负担，推动生命科学研究的深入发展。

1.6 LLaMP: Large Language Model Made Powerful for High-fidelity Materials Knowledge Retrieval

https://arxiv.org/abs/2401.17244

这篇论文介绍了LLaMP（Large Language Model Made Powerful），一个多模态检索增强生成（RAG）框架，通过分层推理与行动（ReAct）代理动态交互材料项目（Materials Project）等数据库，以解决大型语言模型（LLM）在材料科学领域中的幻觉问题。LLaMP无需微调即可整合多模态材料数据（如晶体结构、弹性张量等），执行复杂任务（如晶体编辑和分子动力学模拟），并通过提出的自一致性响应（SCoR）指标验证其高准确性和可靠性。实验表明，LLaMP在预测材料属性（如体模量、带隙）时显著优于普通LLM，有效减少了错误，为材料信息学提供了直观且低幻觉的研究工具。

1.7 MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents

https://arxiv.org/abs/2408.14033

这篇论文提出了一个名为MLR-Copilot的系统框架，旨在利用大型语言模型（LLM）代理来自动化机器学习研究的全过程，包括研究想法的生成、实验的实现和执行。该框架分为三个阶段：首先，IdeaAgent通过分析现有研究论文生成假设和实验计划；其次，ExperimentAgent将实验计划转化为可执行的代码，并可选地检索模型和数据；最后，ExperimentAgent管理实验的执行，支持人类反馈和迭代调试以优化结果。论文通过五个机器学习研究任务的实验验证了该框架的有效性，结果显示其在生成创新性假设和提升实验性能方面优于基线方法。MLR-Copilot为加速机器学习研究提供了一种系统化的解决方案，帮助研究者专注于高层次的科学探索和创新。

1.8 MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making

https://arxiv.org/abs/2404.15155

这篇论文提出了一种名为MDAgents（Medical Decision-making Agents）的新型多智能体框架，旨在通过动态协作结构优化大型语言模型（LLMs）在复杂医疗决策任务中的应用。该框架模拟真实医疗决策流程，根据任务复杂度自动分配协作模式（如单独处理或团队协作），并在十个医疗基准测试中的七个上表现最佳，准确率最高提升4.2%。实验表明，MDAgents能有效评估医疗问题复杂度，平衡效率与准确性，尤其在结合外部医学知识和多轮讨论时，平均准确率提升11.8%。论文还探讨了局限性，如未来需整合专业医疗模型和患者中心化诊断，并强调了减少AI幻觉风险的必要性。

1.9 MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework

https://arxiv.org/abs/2308.00352

这篇论文介绍了MetaGPT，一个基于大型语言模型（LLM）的多智能体协作框架，通过模拟人类标准化操作流程（SOP）来提升复杂任务的解决能力。MetaGPT将SOP编码为提示序列，为不同角色（如产品经理、架构师、工程师等）分配任务，并通过结构化通信和发布-订阅机制优化协作效率。实验表明，MetaGPT在HumanEval和MBPP等代码生成基准测试中达到了最先进的性能（85.9%和87.7%的Pass@1），并在软件工程任务中展现出更高的执行力和鲁棒性。此外，框架还引入了可执行反馈机制，进一步提升了代码生成质量。MetaGPT的开源项目为开发LLM多智能体系统提供了灵活且高效的平台。

1.10 ChatMOF: an artiﬁcial intelligence system for predicting and generating metal-organic frameworks using large language models

https://doi.org/10.1038/s41467-024-48998-4

这篇论文介绍了ChatMOF，一个基于大型语言模型（LLM）的人工智能系统，用于预测和生成金属有机框架（MOF）。ChatMOF通过整合GPT-4等LLM与材料科学工具，能够从自然语言输入中提取关键信息，执行数据检索、性质预测和结构生成等任务。系统由代理、工具包和评估器三部分组成，通过标准化流程实现高效协作。实验表明，ChatMOF在搜索、预测和生成任务中的准确率分别达到96.9%、95.7%和87.5%，并能根据用户需求生成具有特定性质的MOF结构。研究还探讨了LLM在材料科学中的潜力与挑战，展示了其在推动新材料发现方面的变革性作用。

2. 调控科学实验执行的多智能体框架

2.1 The Virtual Lab: AI Agents Design New SARS-CoV-2 Nanobodies with Experimental Validation

https://www.biorxiv.org/content/10.1101/2024.11.11.623004v1

本文介绍了一个名为“虚拟实验室”（Virtual Lab）的新型人-AI协作科研框架。该框架由一名人类研究员进行高层指导，并由一组扮演不同科学角色（如首席研究员、免疫学家、计算机科学家及评论家）的AI智能体协同工作。通过模拟的“团队会议”和“个人会议”，智能体团队可进行复杂的跨学科研究，涵盖方案制定、工具筛选和代码实现等环节。为验证其能力，该研究将其应用于为最新的SARS-CoV-2（新冠病毒）变体设计纳米抗体这一真实挑战。虚拟实验室自主创建了一个整合ESM、AlphaFold-Multimer和Rosetta的创新计算流程，并据此设计了92种新的纳米抗体。随后的实验验证证实了这些设计的可行性。其中，两种新设计的纳米抗体在保持对原始毒株结合力的同时，展现出对JN.1或KP.3新变体更强的结合能力，显示出作为候选药物的潜力。该研究表明，“虚拟实验室”能作为人类科学家的有效合作伙伴，显著加速需要多领域知识的科学探索，并产出具有现实世界影响力的成果，标志着AI从科研工具向科研伙伴的转变。

2.2 Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

https://arxiv.org/abs/2504.17192v1

这篇论文介绍了一个名为PaperCoder的多智能体大语言模型（LLM）框架，旨在解决机器学习研究中因缺少代码而导致的科研复现性差的难题。该框架能够自动将科学论文直接转化为功能完整的代码库。PaperCoder的工作流程模拟了人类开发者的生命周期，并分为三个核心阶段：规划 (Planning)：首先构建一个高层路线图，通过类图和序列图设计系统架构，识别文件间的依赖关系，并生成实验所需的配置文件；分析 (Analyzing)：对每个文件的功能、输入输出以及算法约束等实现细节进行精细化解读。生成 (Generation)：最后，根据规划和分析阶段的产出，并遵循文件依赖顺序，生成模块化的完整代码库。该框架在包含90篇近期顶级会议论文的Paper2Code基准和PaperBench上进行了广泛评估。结果显示，无论是在自动模型评估还是由论文原作者参与的人工评估中，PaperCoder的表现都显著优于现有基线方法。值得注意的是，77%的论文作者将PaperCoder生成的代码库评为最佳，85%的专家认为这些代码对复现工作有实际帮助，并且生成的代码只需极少量修改即可成功执行。

2.3 OpenDevin: An Open Platform for AI Software Developers as Generalist Agents

https://openreview.net/forum?id=U6EzTdBWdg

该论文介绍了OpenDevin，一个旨在开发通用AI智能体的开源平台。这些智能体能够像软件开发者一样，通过编写代码、使用命令行和浏览网页与数字世界进行复杂的交互。OpenDevin的核心架构包含几个关键部分：一个灵活的事件流架构，用于追踪所有交互行为；一个安全的沙盒环境，内置了Linux命令行、Jupyter服务器和网络浏览器，供智能体执行任务；一个可扩展的“技能库”（AgentSkills），提供文件编辑、信息提取等实用工具；以及支持多智能体协作的代理委托机制。该平台设有一个“AgentHub”，汇集了社区贡献的多种智能体，例如默认的通用智能体CodeActAgent和专用于网页任务的Browse Agent 。此外，OpenDevin还集成了一个全面的评估框架，包含软件工程、网页浏览和通用任务三大类共15个基准测试。作为一个由学界和业界共同驱动的社区项目，OpenDevin在评估中展现了其通用智能体在不同任务类别下的强大竞争力，证明了其设计的有效性和通用性。该平台致力于为AI智能体的研究和实际应用提供一个强大的基础。

2.4 Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents

https://arxiv.org/abs/2405.02957

这篇论文介绍了一个名为“智能体医院”（Agent Hospital）的创新模拟平台。该平台构建了一个虚拟医院环境，其中的患者、护士和医生均由大型语言模型（LLM）驱动的自主智能体扮演。它完整地模拟了从发病、分诊、挂号、咨询、检查、诊断到配药和康复的整个诊疗过程。该研究的核心是一种名为“基于模拟器的进化式智能体学习”（SEAL）的新范式。该范式包含两个主要部分：模拟器构建和智能体进化。通过将大型语言模型与医学知识库相结合，平台能够自动生成大量带有各种疾病、症状和病史的虚拟患者，无需人工标注数据。在这个模拟环境中，医生智能体通过诊疗大量虚拟患者来不断“进化”和学习。它们从成功案例中构建“医疗案例库”以供参考，并从失败案例中反思总结，形成“经验库”以避免未来再犯。经过数万次虚拟诊疗后（相当于人类医生数年的实践），进化后的医生智能体在解决真实世界的医学问题上表现出色，其在 MedQA（美国执业医师资格考试）基准测试中的表现超越了现有的先进医疗智能体方法。这项研究为解决特定领域的现实世界问题提供了一个新框架，即通过构建模拟环境并让智能体在其中自主进化来提升其专业能力。

2.5 Conversational Health Agents: A Personalized LLM-Powered Agent Framework

https://arxiv.org/abs/2310.02374

该论文提出了一个名为 openCHA 的开源框架，旨在解决当前基于大型语言模型（LLM）的对话式健康智能体（CHA）所面临的挑战。现有智能体在多步骤问题解决、个性化对话和多模态数据分析方面能力有限，其回复往往是通用的，并且无法获取用户的个人健康数据或最新的医疗知识。openCHA 框架的核心是一个“编排器”（Orchestrator），它扮演着问题解决者的角色，能够理解用户查询，并智能地规划与执行一系列动作来收集信息。该框架的关键创新在于能够灵活集成各种“外部资源”，包括：医疗数据源：访问用户授权的个人健康记录（EHR）和可穿戴设备数据；知识库：连接最新的医疗文献和可靠网站，以获取前沿知识。AI与分析模型：利用外部工具进行专业的生物信号、图像等数据分析。通过整合这些外部资源，openCHA 能够处理复杂的多模态医疗任务，提供高度个性化、可靠且信息前沿的健康建议。论文通过两个演示和四个实际用例（如饮食推荐和糖尿病管理）验证了该框架的有效性。

2.6 An automatic end-to-end chemical synthesis development platform powered by large language models

https://www.nature.com/articles/s41467-024-54457-x

这篇论文介绍了一个名为LLM-RDF（大型语言模型驱动的反应开发框架）的自动化端到端化学合成开发平台。该平台利用GPT-4的强大能力，旨在处理化学合成开发全流程中的各项任务。LLM-RDF由六个专门的LLM智能体组成：文献搜寻器、实验设计器、硬件执行器、光谱分析器、分离指导器和结果解释器。研究者通过一个网络应用将LLM-RDF作为后端，允许化学家使用自然语言与自动化实验平台交互并分析结果，无需编程技能。论文以铜/TEMPO催化的好氧醇氧化反应为例，全面展示了LLM-RDF在指导从文献检索、条件筛选、动力学研究、反应优化到规模放大和产物纯化的整个过程中的能力。此外，该框架的通用性也在另外三种不同的合成任务中得到了验证，包括SNAг反应、光氧化还原C-C交叉偶联反应和非均相光电化学反应。尽管该技术展示了巨大潜力，研究也指出了当前的一些局限，例如LLM响应的可靠性、在分析深层化学机理方面缺乏专业知识，以及闭源模型带来的复现性问题。该工作为大型语言模型技术深度融入化学研发领域探索了一条可行路径。

2.7 Augmenting large language models with chemistry tools

https://www.nature.com/articles/s42256-024-00832-8

这篇论文介绍了一款名为ChemCrow的化学大型语言模型（LLM）智能体，旨在解决LLM在处理专业化学问题时能力不足的局限性。ChemCrow的核心是利用GPT-4作为推理引擎，并通过集成18种专家设计的化学工具来增强其功能，这些工具覆盖了有机合成、药物发现和材料设计等领域。研究展示，ChemCrow能够自主完成复杂的化学任务。例如，它成功地规划并（通过连接到机器人平台）执行了一种驱虫剂和三种有机催化剂的合成。此外，它还通过人机协作引导发现了一种具有特定目标属性的新型生色团分子。在与不使用工具的GPT-4进行的对比评估中，化学专家认为ChemCrow在化学准确性、推理质量和任务完成度上均表现更优，尤其是在处理更复杂的任务时。该工作通过将LLM的推理能力与精确的计算工具相结合，不仅为化学专家提供了强大的辅助，降低了非专业人士的入门门槛，还有效地连接了计算化学与实验化学，从而推动了科学的进步。

2.8 AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions

https://arxiv.org/abs/2410.20424

该论文提出了AutoKaggle，一个旨在通过多智能体协作，自主解决复杂表格数据科学竞赛的强大框架。为应对现有工具在处理多步骤任务时的不足以及缺乏透明度等问题，AutoKaggle设计了一套独特的系统。该系统的核心是基于阶段的工作流与多智能体协作。它将数据科学流程分解为背景理解、数据清洗、特征工程及模型构建等六个关键阶段，并由规划器（Planner）、开发者（Developer）等五个分工明确的智能体协同完成。AutoKaggle的亮点在于其迭代式开发流程，该流程结合了代码执行、自动调试和全面的单元测试，以确保代码的正确性和逻辑一致性。此外，框架还集成了一个预制的机器学习工具库以提升效率和可靠性，并通过生成详细报告来增强过程的透明度与用户信任。在8个Kaggle竞赛上的评估显示，AutoKaggle取得了0.85的有效提交率和0.82的综合得分，充分证明了其在处理真实且复杂数据科学任务时的有效性和实用性。

2.9 MLGym: A New Framework and Benchmark for Advancing AI Research Agents

https://arxiv.org/abs/2502.14499

这篇论文介绍了一个名为MLGym 的新框架和一个名为 MLGym-Bench 的新基准测试。MLGym 是首个专为机器学习（ML）任务设计的 Gym 环境，旨在推动和评估大型语言模型（LLM）作为人工智能（AI）研究代理的开发。该框架具有模块化设计，可以轻松集成新任务、代理和模型，并支持使用强化学习等算法来训练这些代理。MLGym-Bench 基准测试套件包含 13 个来自计算机视觉、自然语言处理、强化学习和博弈论等多个领域的开放式 AI 研究任务。这些任务旨在评估代理在真实 AI 研究场景中的综合能力，例如提出新想法、处理数据、实施和训练模型、分析结果以及迭代改进。研究团队使用该基准评估了多个前沿大型语言模型，如 Claude-3.5-Sonnet、Llama-3.1 405B、GPT-40 和 Gemini-1.5 Pro。为了更公平地比较不同代理在各项任务上的表现，论文提出了一种新的评估指标——性能剖面曲线下面积（AUP）分数。实验结果表明，尽管当前的前沿模型能够在给定基线上通过调整超参数等方式取得进步，但它们在提出新颖的算法、架构或实现重大突破方面仍然能力有限。通过对代理行为和失败模式的分析，研究揭示了当前模型在可靠性和解决复杂问题方面的差距。研究团队开源了此框架和基准，以促进 AI 研究代理能力的未来发展。

2.10 Large Language Models are Zero Shot Hypothesis Proposers

https://arxiv.org/abs/2311.05965

该论文探讨了大型语言模型（LLMs）在科学发现中作为“零样本假说提出者”的潜力。研究者指出，科学文献和数据的爆炸性增长导致了跨学科的信息壁垒，减缓了科学发现的进程，而LLMs的跨领域知识有望打破这一僵局。为了正式探究LLMs提出科学假说的能力，该研究构建了一个基于生物医学文献的数据集，并根据发表日期严格划分训练集与测试集，以确保对模型进行真正的“零样本”评估。研究团队在零样本、少样本及微调等多种设置下，评估了多种顶尖LLMs（包括闭源和开源模型）的表现。为此，他们不仅设计了新颖性、相关性、重要性和可验证性四个评估维度，还引入了一个多智能体协作框架以提升假说生成的能力。研究的关键发现包括：LLMs能够成功提出未经训练但被后续文献验证的科学假说；增加系统的不确定性（如通过多智能体协作）有助于提升模型零样本生成假说的能力；在某些情况下，零样本生成假说的效果优于提供示例的少样本方法，因为后者可能限制模型的创新。这些发现有力地支持了LLMs作为科学发现催化剂的潜力。

3. 进行实验结果分析与成果转化的多智能体框架

3.1 AlphaEvolve: A coding agent for scientific and algorithmic discovery

https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

AlphaEvolve是一个融合多智能体协作理念的进化编码框架，通过 LLM 集群、分布式控制器及评估节点的协同，构建起 “实验设计 - 结果分析 - 成果转化” 的闭环体系。在实验结果分析层面，该框架借助自动化评估函数与进化算法，实现对海量方案的多维度筛选。在成果转化中，其通过模块化适配跨领域场景，将算法发现高效落地为实际生产力。该框架以多智能体协同思想为核心，既通过 LLM ensemble 模拟 “探索 - 优化” 分工，又以分布式评估节点并行加速实验分析，最终形成从科学发现到产业应用的完整转化链条。

3.2 Accelerated end-to-end chemical synthesis development with large language models

https://chemrxiv.org/engage/chemrxiv/article-details/6634f02021291e5d1d58702c

本文提出了一种基于大语言模型的多智能体框架，旨在实现化学合成开发中实验结果分析与成果转化的自动化与高效化。以 GPT-4 为基础构建了包含文献搜索器、实验设计器、硬件执行器、光谱分析器、分离指导器和结果解释器在内的六大智能体，形成了从文献检索、实验设计到光谱分析、结果阐释的全流程支持体系。该框架在铜 / TEMPO 催化的需氧醇氧化至醛反应中得到验证，智能体不仅能自动提取文献信息、设计并执行高通量实验，还可通过光谱数据解析实时计算产率，结合动力学模型拟合与贝叶斯优化算法优化反应条件，最终实现从实验室小试到克级规模合成的成果转化。这种多智能体协作模式突破了传统专家主导的劳动密集型工作流程，通过智能体对实验数据的深度分析与决策支持，显著加速了化学合成开发向实际应用的转化进程

3.3 Organa: A Robotic Assistant for Automated Chemistry Experimentation and Characterization

https://arxiv.org/abs/2401.06949

本文介绍了 Organa 这一用于自动化化学实验和表征的机器人辅助系统，其核心是一个集成多智能体的框架，旨在实现实验结果分析与成果转化的全流程自动化。该框架以大语言模型为交互基础，通过 Reasoner 智能体解析实验目标并生成计划，结合 Task and Motion Planning 智能体优化任务调度与并行执行，利用 Perception 智能体实现透明物体检测和实验进程监控，再借助 Analyzer 智能体对电化学参数等实验数据进行最大 likelihood 估计和后验分布分析，最终自动生成包含实验日志、参数估计和可视化结果的报告。在喹酮衍生物的电化学表征实验中，该框架通过 19 步并行操作完成电极抛光、溶液制备和伏安扫描等任务，用户研究显示其将化学家的交互时间减少 80.3%，并通过贝叶斯优化等算法提升反应条件优化效率，实现从实验室数据到可转化成果的无缝衔接，为化学研究的自动化和成果转化提供了模块化、高效的解决方案。

3.4 CellAgent: An LLM-driven Multi-Agent Framework for Automated Single-cell Data Analysis

https://arxiv.org/abs/2407.09811

这篇论文提出了 CellAgent，一个基于大语言模型的多智能体协作框架，专为单细胞 RNA 测序数据的自动化分析而设计，旨在实现实验结果分析与成果转化的高效衔接。该框架通过构建 Planner、Executor 和 Evaluator 三个生物专家角色，形成层次化决策机制与自迭代优化机制，可自动完成从任务分解、工具调用到结果评估的全流程分析。实验结果显示，在涵盖数十种组织和数百种细胞类型的基准数据集上，CellAgent 在批效应校正、细胞类型注释和轨迹推断等任务中均表现出最优性能，任务完成率达 92%，较直接使用 GPT-4 提升超一倍。其无需人工干预的自动化工作流，不仅大幅降低了单细胞分析的技术门槛，还通过工具集成与结果优化机制，为生物医学研究的数据处理与成果转化提供了标准化、高效化的解决方案，推动 “Agent for Science” 时代的发展。

3.5 MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

https://arxiv.org/abs/2311.10537

这篇论文提出 MEDAGENTS，一个专为医疗领域设计的多智能体协作框架，通过模拟多学科专家的角色分工与迭代讨论，实现零样本医疗推理的实验结果分析与成果转化。该框架包含专家聚集、分析提出、报告总结、协作咨询和决策制定五个核心步骤，利用大语言模型驱动不同领域专家进行多轮交互，在 MedQA、MedMCQA 等 9 个数据集上，其零样本性能显著优于思维链、自一致性等基线方法，例如在 MedQA 数据集上 GPT-3.5 驱动的 MEDAGENTS 准确率达 64.1%，较 CoT 提升 9.1%，且通过消融实验验证了各模块的必要性。实验结果还显示，该框架在批效应校正、细胞类型注释等任务中表现最优，任务完成率达 92%，其无需人工干预的自动化工作流，不仅大幅降低了医疗分析的技术门槛，还通过多专家协作的可解释性决策过程，为生物医学研究的数据处理与临床成果转化提供了标准化、高效化的解决方案，推动 “Agent for Science” 在医疗领域的落地。

3.6 Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

https://arxiv.org/abs/2408.07060

这篇论文提出 DEI（Diversity Empowered Intelligence）框架，这是一个旨在整合软件工程师代理多样性专长以优化实验结果分析与成果转化的多智能体框架。DEI 作为现有代理框架的元模块，通过管理多代理集合，利用 LLM 驱动的代码审查委员会对候选补丁进行评分和重排序，实现问题解决能力的提升。实验结果显示，在 SWE-Bench Lite 数据集上，单个开源代理最高解决率为 27.3%，而 DEI 引导的代理委员会将解决率提升至 34.3%，实现 25% 的性能改进，其最佳代理组更以 55% 的解决率位居榜首。该框架通过动态选择最优代理策略，将平均解决率 26.6% 的代理组潜力提升至 54.3%，且 DEIBASE 实现无需重构现有代理流程，直接集成到实际开发工作流中，为软件工程问题提供了可落地的多智能体协作方案，推动 AI 在代码修复等场景的成果转化。

3.7 Hypothesis Generation for Materials Discovery and Design Using Goal-Driven and Constraint Guided LLM Agents

https://arxiv.org/html/2501.13299v2

这篇论文提出 ACCELMAT 框架，这是一个目标驱动与约束引导的多智能体框架，通过整合假设生成代理、多 LLM 批评系统、总结代理和评估代理，实现材料发现与设计的假设生成、迭代优化及实验结果分析，推动科研成果向实际应用转化。该框架利用 MATDESIGN 数据集进行验证，实验显示：无反馈配置平均接近度 70%、质量 79.67%，引入反馈后接近度提升至 73.33%、质量 85.67%，而结合知识图与反馈的配置表现最优，接近度达 80%、质量 89%，且 19/20 的假设获批评代理共识。人类专家评估表明，该框架生成的假设兼具科学合理性与创新潜力，如自修复涂层设计中提出的聚氨酯基质结合氰基丙烯酸酯血管状通道等方案，在满足海洋环境腐蚀防护需求的同时，展现出工业规模化应用的可行性，其评估指标与专家判断高度一致，为材料科学研究提供了从假设生成到实际应用的完整解决方案。

3.8 Large Language Models for Automated Open-domain Scientific Hypotheses Discovery

https://arxiv.org/abs/2309.02726

这篇论文提出了自动开放域假设归纳任务，旨在利用大型语言模型从原始网络语料库中自动生成新颖且有效的科学假设，并构建了首个面向社会科学的假设发现数据集。为解决该任务，论文设计了多模块框架 MOOSE，其包含背景查找、灵感挖掘和假设生成等核心模块，并创新性地引入即时反馈、过去反馈和未来反馈三种多智能体协作机制 —— 即时反馈通过 LLM 对假设的现实性、新颖性和清晰度进行实时评估与修正，过去反馈基于后续模块结果回溯优化前期灵感筛选，未来反馈则为后续模块提供推理依据与初始建议，形成多智能体协同优化闭环。实验表明，MOOSE 在 GPT - 4 评估和专家评审中均表现出优于基线模型的性能，生成的假设兼具 “文献未提及的新颖性” 和 “反映现实的有效性”，首次验证了 LLM 作为科学家 “智能副驾驶” 辅助科学假设发现的潜力，为推动 AI 在科学研究中的成果转化提供了可复用的多智能体框架范式。

3.9 P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark

https://arxiv.org/abs/2505.17104

这篇论文提出了首个基于大语言模型的多智能体框架 P2P，旨在实现从学术论文到海报的自动化生成与细粒度评估，其核心由负责视觉元素处理的 Figure Agent、生成文本内容的 Section Agent，以及整合图文的 Orchestrate Agent 构成，每个代理均配备检查模块以迭代优化输出质量。实验层面，研究构建了包含 121 对论文 - 海报的 P2P EVAL 基准，采用通用评估与细粒度评估的双轨模式，结合 XGBoost 模型实现评估量化，结果显示 P2P 在 ROUGE、BERTScore 等指标上显著优于基线模型，且经 3 万例 P2P INSTRUCT 数据集微调的 Qwen3-P2P 模型性能提升显著。成果转化方面，P2P 支持 HTML 格式海报生成，兼具响应式布局与机构配色适配能力，代码已开源，用户偏好实验表明其生成质量接近人类创作水平，83.05% 的案例中优于腾讯 YuanBao 工具，为学术传播提供了实用化解决方案。

3.10 SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning

https://arxiv.org/abs/2409.05556

这篇论文提出了 SciAgents 框架，该框架通过多智能体协作与本体知识图谱结合，实现自动化科学发现，尤其在实验结果分析与成果转化方面展现独特优势。在实验分析中，智能体系统通过分子动力学模拟、有限元分析等方法，对丝绸 - 蒲公英色素复合材料等案例进行多尺度验证，如通过 SEM、TEM 等表征手段确认纳米结构形成，并借助 UV-Vis 光谱等量化光学性能，同时利用 Semantic Scholar API 评估研究新颖性，形成 “假设生成 - 实验验证 - 反馈优化” 的闭环。成果转化层面，框架支持 HTML 格式海报生成、代码开源，且经 3 万例数据集微调的模型性能显著提升，用户偏好实验显示其生成质量接近人类水平，83.05% 的案例优于腾讯 YuanBao 工具，为生物启发材料设计等领域提供可复用的多智能体范式，首次验证 LLM 作为 “智能副驾驶” 辅助科学发现的潜力。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向

（如：小张-哈工大-对话系统）

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

【声明】内容源于网络