

140篇参考文献，26页综述系统梳理医学智能体的应用、挑战与机遇

ScienceAl

2025-12-02

导读：提供了全面的知识地图。

医疗大模型智能体研究综述：构建可信赖的临床AI系统

作者丨论文团队
编辑丨ScienceAI

近年来，大语言模型（LLMs）已从被动文本生成器演进为具备规划、行动与协作能力的智能体。在高风险的医疗场景中，如何让AI切实辅助临床工作而非引入风险，亟需系统性梳理与审慎评估。

来自中佛罗里达大学（UCF）、宾夕法尼亚大学（UPenn）、斯坦福大学、牛津大学、康奈尔大学等机构的研究者，系统分析了2022–2025年间发表的140余篇医学智能体论文，完成26页综述。该研究提出统一三维分类框架，厘清智能体如何融合专业知识与外部工具，并提炼出跨领域的可迁移设计原则。

论文链接：https://d197for5662m48.cloudfront.net/documents/publicationstatus/278360/preprint_pdf/95302cbe90fac3ed4a50efa6430771fc.pdf

AI智能体论文呈指数增长

统计显示，医疗智能体相关论文自2022年起呈指数级增长，至2025年数量已超过纯LLM/VLM模型研究。研究重心正从模型本体转向系统设计与临床落地，凸显开展此项综述的必要性。

LLM/VLMs 与智能体论文数量变化图。

三维统一分类框架

综述提出从**应用场景、工具使用、自主程度**三个维度对医疗智能体进行系统归类。该框架经专家审核与迭代编码验证，有助于横向比较不同系统的结构与功能。

医疗LLM智能体的三维分类示意图。

主要功能分类

知识检索与问答：结合医学文献或知识库，回答临床问题或患者咨询。
临床决策支持：辅助诊断、生成鉴别诊断、推荐治疗方案，需医师最终把关。
文档生成与工作流：自动撰写病历摘要、报告或完成任务分配，提升文书效率。
患者互动与咨询：开展症状收集、健康宣教、心理疏导，强调对话连贯性与共情能力。
研究与发现：支持文献综述、假设生成、药物筛选等科研任务，加速知识发现。

自主程度分类

完全自主：可预设目标下自主规划并执行多步任务（如调用数据库、输出结论），目前仅限实验阶段。
人类在环（半自主）：关键决策前须经医护人员审核确认，是当前主流模式。
被动助手：仅响应用户提问，无主动规划能力，功能类似传统聊天机器人。

工具与资源整合分类

知识整合型：依托检索增强生成（RAG）技术，融合指南、文献等外部知识，提升临床问答准确性。
工具增强型：通过函数调用或API接入医院信息系统、检验数据库、临床评分计算器等。
多模态型：支持图像、表格、音频等非文本输入，如分析放射影像并生成结构化报告，代表未来重点方向。

代表性医疗智能体系统

基于三维框架，综述汇总大量代表性系统，覆盖诊断、报告生成、患者咨询及药物发现等场景，并按功能、自治性与工具集成度进行归类，便于快速把握当前技术生态与差异化特征。

关键应用领域概览

医学影像与放射学：生成或汇总放射报告、辅助影像判读；例如GPT‑4阅读胸片后生成印象摘要已达住院医师水平，仍需医生审核。
临床决策支持：支持鉴别诊断、治疗建议、疾病分型；部分系统可结合电子病历与知识库输出可行路径，但多数仍为半自动模式。
文档自动化与工作流管理：自动撰写病历、出院总结、转录医患对话；如“EHR导航助手”可依语音指令查询检验结果并填充表单。
患者互动与康复管理：承担常见问题解答、健康宣教、慢病监测等任务，突出交互性与共情能力。
医学研究与药物发现：通过文献分析、假设生成与虚拟实验设计，加速科研进程；例如多智能体协同筛选候选分子。

综述指出，文档自动化与知识问答已具实际部署潜力，而全自动临床决策与多模态诊断尚处探索阶段。

通用医疗智能体架构

研究提炼出一种通用架构：以LLM为核心认知模块负责任务规划与推理，外接临床数据库、电子病历（EHR）API、医学图像分析工具等模块，并嵌入人类在环机制，及时纠偏，降低幻觉与偏见风险。

通用医疗智能体架构示意图。

核心技术比较

提示工程与链式思维（CoT）：通过结构化提示激发逻辑推理，适用于问答与摘要；但依赖提示质量，缺乏外部知识支撑。
检索增强生成（RAG）：将检索结果注入上下文再生成回答，显著缓解幻觉，适用于临床问答与文献综述；性能受限于检索质量与知识库覆盖度。
记忆机制：引入短期与长期记忆模块，存储历史对话与患者信息，提升个性化与连贯性；需优化检索与摘要策略。
工具整合与函数调用：通过API对接临床系统，赋予行动能力（如生成处方、分析影像）；增加系统复杂度，需保障接口安全。
多智能体协作：将任务分解至多个专科代理，由主代理协调，提升诊断可靠性；需设计通信与记忆共享机制。

多智能体协作实践

为应对复杂临床流程，部分系统采用多智能体协作模式，各子智能体分工承担规划、检索、验证等职责，类比多学科诊疗团队。以RareAgents为例，其“主治医师”与专科智能体协同诊断罕见病，借助共享长期记忆与专业工具，在性能上超越GPT‑4o。

多智能体工作流示意图，多个子智能体协作生成医学影像报告。

记忆机制与人类在环

针对LLM上下文窗口限制，综述探讨外部记忆实现方式，如将对话摘要嵌入向量数据库，或采用分层记忆模块，使智能体可在新会话中调取关键历史信息。以MaLP框架为例，其短期记忆捕获近期对话，长期记忆保存患者关键事件，支撑个性化、连贯的临床建议。

智能体记忆集成示意图，展示短期和长期记忆帮助LLM保持对话上下文。

跨领域启示

教育科技：借鉴角色扮演与渐进式课程设计，模拟医患对话或制定分阶段诊疗计划，提升可用性。
机器人学：参考层次化规划架构（如PaLM-SayCan），将高层指令拆解为安全可控的底层操作序列。
科学发现：引入自动实验循环范式，系统性设计临床试验方案或自动分析药物组合效应。

这些跨学科经验表明，医疗智能体发展需开放借鉴任务分解、反馈闭环与安全控制等成熟方法论。

挑战与前景

能力广度与深度的权衡：大模型泛化能力强，但特定病种或操作精度不足，需结合专业模块或多智能体架构补强。
数据质量与缺失模态：电子病历常存在不完整、不规范问题，模型需学会表达不确定性，而非强行填补。
评估方法与真实世界差距：考试题或合成数据难以反映临床复杂性，应推进模拟场景测试与前瞻性临床试验。
事实可靠性与安全：幻觉仍是核心挑战，RAG、溯源引用与不确定性表达可缓解，但尚未实现绝对可信。
公平性与偏见：训练数据偏差可能导致群体间服务差异，评测需纳入多元患者背景并部署纠偏机制。
隐私与数据保护：须符合法规要求，采用本地部署、差分隐私与访问控制等技术防范泄露风险。
监管与伦理责任：责任归属尚不清晰，当前普遍要求医生对智能体输出终审负责，故需强化可解释性与合规性设计。
系统集成与实施：嵌入医院信息系统面临技术适配与人机协作双重挑战，需临床团队深度参与开发与推广。
未来演进：模型与算法持续进步有望缓解部分瓶颈，但可信部署仍高度依赖跨学科合作、严格验证与法规引导。

综述指出，文档自动化、知识检索等场景已具近期应用价值；而完全自主决策与多模态诊断，则属中长期发展目标。未来路径应在技术创新与安全规范之间取得平衡，确保智能体始终作为医生的可靠协作者。

结语

作为医疗AI领域最新综述，本文构建了系统性知识地图，为学术界、产业界与政策制定者共同推动可信赖临床AI发展提供重要参考。

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

【声明】内容源于网络

ScienceAl

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

内容 1918

粉丝 0

ScienceAl 机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

总阅读13.2k

粉丝0

内容1.9k