

Agentic AI在医学领域的应用综述

CVer

2025-12-03

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

作者单位：中佛罗里达大学(UCF), 宾大(UPenn), 斯坦福, 牛津, 康奈尔等

论文下载链接：

https://d197for5662m48.cloudfront.net/documents/publicationstatus/278360/preprint_pdf/95302cbe90fac3ed4a50efa6430771fc.pdf

26页综述，共计140篇参考文献！本综述总结了Agentic AI在医学领域的应用以及使用场景和挑战与机遇

综述背景

近年来，大语言模型（LLMs）从被动的文本生成器迅速演化成具备规划、行动和协作能力的智能体。医疗是高风险场景，如何让模型为临床工作提供帮助而不造成伤害，需要全面梳理和审视。本综述系统分析了2022–2025年发表的 140 余篇医学智能体论文，提出统一的分类框架，探讨现有系统如何结合专业知识与外部工具，并总结跨领域的可迁移设计原则。

AI智能体论文的快速增长

作者统计了近年来医疗智能体相关论文的数量，发现从 2022 年起该领域呈指数增长，到 2025 年AI智能体论文数量已超过纯 LLM/VLM 模型的研究。研究焦点由模型本体转向智能体系统设计与落地应用，这也凸显了开展这项综述的必要性。

LLM/VLMs 与智能体论文数量变化图

统一的智能体分类框架

文章提出一个新的从三个维度的分类体系，从应用场景、工具使用和自主程度三个维度对医疗智能体进行归类。通过专家审核的迭代编码过程，该框架有助于系统地比较不同智能体的结构和功能。下图展示了这一三个维度分类框架。

医疗LLM智能体的三维分类示意图。

主要功能分类

根据系统所承担的核心职能，医疗智能体可以分为以下几类：

• 知识检索与问答：提供医学知识、回答临床问题或患者咨询，通常结合医学文献检索或知识库。

• 临床决策支持：辅助诊断、生成鉴别诊断、推荐治疗方案，需要深入推理并由医师把关。

• 文档生成与工作流：协助生成病历摘要、报告或完成任务分配，提高临床文书效率。

• 患者互动与咨询：面向患者进行症状收集、健康宣教或心理疏导，强调对话的连贯性与共情。

• 研究与发现：面向科研人员进行文献综述、假设生成或药物筛选等任务，加速知识发现。

自主程度分类

按照决策与执行的自主程度，现有医疗智能体可分为：

• 完全自主：可以在预设目标下自行规划并完成多步任务，如自主查询数据库、调用工具并输出结论，但医疗场景中此类系统尚处于实验阶段。

• 人类在环（半自主）：在执行关键决策前由医护人员审核或确认，是目前最常见的模式；例如由模型生成处方草案后由医生签署。

• 被动助手：仅在用户询问时输出答案，缺乏主动规划能力，类似传统聊天机器人。

工具与资源整合分类

根据外部资源整合程度，智能体可分为：

• 知识整合型：通过检索外部知识库（例如医学文献、指南）增强回答的准确性，这种检索增强生成（RAG）方法在临床问答中非常常见。

• 工具增强型：利用函数调用或 API 与医院信息系统、数据库、计算器等交互，例如自动查询患者检验结果或计算临床评分。

• 多模态型：能处理图像、表格或音频等非文本信息，如读取放射影像并生成报告，是未来的重要方向。

代表性医疗智能体

综合三个维度分类后，综述列举了大量代表性智能体系统，涵盖诊断、报告生成、患者咨询及药物发现等应用，并按照功能、自治和工具三个维度进行归类。该汇总表有助于读者快速了解目前已有的系统生态及各自的技术特点。

关键应用领域概览

作者按照智能体在临床实践中的实际用途，总结了五大应用领域，每个领域都包含具体任务和研究案例：

• 医学影像与放射学：包括生成或汇总放射报告、辅助影像诊断等。例如 GPT‑4 在阅读胸片后生成印象摘要可达到放射科住院医师水平，但仍需医生审核。

• 临床决策支持：助力医生进行鉴别诊断、治疗方案建议、疾病分型等；部分研究通过检索患者电子病历和知识库提出可行的工作流程，但当前系统多为半自动，仍依赖人类决策。

• 文档自动化与工作流管理：利用大模型自动撰写病历、生成出院总结或转录医患对话，减轻医生的文书负担。像“EHR 导航助手”可以根据语音命令查询检验结果并填充表单。

• 患者互动与康复管理：面向患者的聊天机器人承担常见问题解答、健康宣教、症状监测等，如心理健康支持和慢病管理助手；这些系统特别强调交互性和共情能力。

• 医学研究与药物发现：通过分析文献、提出假设和设计虚拟实验加速科研，如多智能体合作筛选候选药物分子，或综述数百篇文献以提炼领域新趋势。

综述指出，各应用领域的成熟度不一：文档自动化和知识问答已具备实际部署潜力，而全自动决策和多模态诊断尚处探索阶段。

通用智能体架构

在梳理现有工作时，作者总结出一种通用的医疗LLM智能体架构：以LLM作为核心认知模块负责任务规划和推理，外接模块用于调用临床数据库、电子病历（EHR）API、医学图像分析工具等，并通过人类在环机制实现及时纠偏，从而减轻幻觉和偏见带来的风险。

通用医疗智能体架构示意图

核心技术比较

围绕上述架构，研究者提出了多种实现医疗智能体的关键技术。综述对比了下列几类方法的优缺点、典型应用和代表系统：

• 提示工程与链式思维（CoT）：通过巧妙设计提示或引导模型分步推理，无需额外训练即可激发模型的逻辑能力，适合问答与摘要任务；但对提示敏感，缺乏外部知识支撑。

• 检索增强生成（RAG）：结合向量检索或知识库，将相关文档拼接至上下文中再生成回答，可显著缓解幻觉问题，适用于临床问答和文献综述；局限在检索质量和知识库范围。

• 记忆机制：引入短期和长期记忆模块，将历史对话或患者信息存储并动态调取，提升个性化和连贯性，但需设计合适的检索和总结策略。

• 工具整合与函数调用：通过 API 调用临床数据库、计算器或设备，实现行动能力，如自动生成处方、调用医学图像分析；增加系统复杂度并需保证接口安全。

• 多智能体协作：将复杂任务分解给多个专科代理，由主代理协调合作，可提升诊断和决策的可靠性，但需要设计通信和记忆共享机制。

多智能体协作

为应对复杂的临床工作流程，部分系统采用多智能体合作模式。不同智能体承担规划、信息检索、结果验证等职责，类似现实中的多学科医疗团队。文章以 RareAgents 为例，框架通过“主治医师”与专科智能体协同诊断罕见疾病，并通过共享长期记忆和专业工具取得了优于 GPT‑4o 的性能。

多智能体工作流示意图，多个子智能体协作生成医学影像报告。

记忆机制与人类在环

LLM 的上下文窗口有限，无法直接处理长期的患者互动。综述讨论了外部记忆的几种实现，例如将对话摘要嵌入向量数据库，或利用分层记忆模块，使智能体能在新会话中检索关键历史信息。以 MaLP 框架为例，短期记忆捕获最近对话，长期记忆保存患者关键事件，从而提供个性化、连贯的建议。

智能体记忆集成示意图，展示短期和长期记忆帮助LLM保持对话上下文。

跨领域启示

综述不仅聚焦医疗领域内部的进展，还从教育技术、机器人学和科学发现等相关领域吸取经验，提出对医疗智能体有启发意义的策略：

• 教育科技的角色扮演与课程规划：面向学生的教学代理已经探索了分角色对话和渐进式课程设计，医疗智能体可以借鉴这些策略，通过模拟医生与患者的对话或制定循序渐进的诊疗计划来提升可用性。

• 机器人学的层次规划与执行：机器人智能体通常将高层任务规划与低层动作执行分开，例如 PaLM-SayCan 将自然语言指令拆解为可执行的操作序列。类似地，医疗智能体可采用分层决策结构，通过工具调用执行安全受控的操作。

• 科学发现领域的自动实验循环：化学和材料科学中已出现自动实验代理，它们能提出假设、设计实验并分析结果。医疗研究亦可采用类似框架，例如系统地设计临床试验方案或自动分析药物组合。

这些跨学科经验提醒我们，医疗智能体的发展不应固步自封，而要主动借鉴其他领域成熟的模式与方法，尤其是在任务分解、反馈循环和安全控制方面。

挑战与前景

综述全面梳理了医疗智能体的发展瓶颈与机遇，主要挑战可概括为以下方面：

• 能力广度与深度的权衡：大模型擅长广泛主题的浅层知识，但在特定病种或专业任务上往往不如专门模型，需要结合专业模块或多智能体架构进行补强。

• 数据质量与缺失模态：现实世界的电子病历往往不完整、不规范，模型必须学会在缺失信息情况下请求补充或表达不确定性，而不能自作主张生成错误建议。

• 评估方法与真实世界差距：考试题或合成数据不能代表临床复杂度，需要通过模拟场景或前瞻性试验评估智能体对医生效率和患者结果的影响。

• 事实可靠性与安全：幻觉和不准确回答依然是顽疾，检索增强、源码引用和不确定性表达等手段可以缓解，但绝对安全仍未达到。

• 公平性与偏见：训练数据的社会偏见可能导致智能体对不同人群产生不公平建议，因此需在评测中纳入多元患者背景并引入偏差纠正机制。

• 隐私与数据保护：处理患者信息必须符合隐私法规，应采用本地部署、差分隐私和访问控制等技术避免泄露。

• 监管与伦理责任：缺乏明确的责任分配框架，目前大多数系统要求医师对智能体建议负责，因此需要可解释性和合规性设计以支持医生做出决策。

• 系统集成与实施：将智能体嵌入医院信息系统涉及技术和人机交互挑战，需要与临床团队协作开发并逐步推广。

• 未来演进：随着模型规模和算法进步，一些问题可能缓解，但医疗智能体的可信部署仍有赖于跨学科合作、严格验证和法规引导。

尽管挑战重重，作者认为医疗智能体在文档自动化、知识检索等领域已具备近期应用价值，而完全自主的决策与多模态诊断则是更长远的目标。未来发展应兼顾技术创新和安全规范，让智能体在协助而非替代医生的前提下最大限度发挥作用。

结语

作为医疗 AI 领域的最新综述，这篇文章提供了全面的知识地图。希望通过机器之心等渠道让更多读者了解医疗大模型智能体的机遇与挑战，促使产业界、学术界和政策制定者共同推动可信赖的临床 AI 发展。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ICCV 2025 论文和代码下载

在CVer公众号后台回复：ICCV2025，即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看