医疗大模型智能体研究综述:构建可信赖的临床AI系统
作者丨论文团队
编辑丨ScienceAI
近年来,大语言模型(LLMs)已从被动文本生成器演进为具备规划、行动与协作能力的智能体。在高风险的医疗场景中,如何让AI切实辅助临床工作而非引入风险,亟需系统性梳理与审慎评估。
来自中佛罗里达大学(UCF)、宾夕法尼亚大学(UPenn)、斯坦福大学、牛津大学、康奈尔大学等机构的研究者,系统分析了2022–2025年间发表的140余篇医学智能体论文,完成26页综述。该研究提出统一三维分类框架,厘清智能体如何融合专业知识与外部工具,并提炼出跨领域的可迁移设计原则。
AI智能体论文呈指数增长
统计显示,医疗智能体相关论文自2022年起呈指数级增长,至2025年数量已超过纯LLM/VLM模型研究。研究重心正从模型本体转向系统设计与临床落地,凸显开展此项综述的必要性。
LLM/VLMs 与智能体论文数量变化图。
三维统一分类框架
综述提出从**应用场景、工具使用、自主程度**三个维度对医疗智能体进行系统归类。该框架经专家审核与迭代编码验证,有助于横向比较不同系统的结构与功能。
医疗LLM智能体的三维分类示意图。
主要功能分类
知识检索与问答:结合医学文献或知识库,回答临床问题或患者咨询。
临床决策支持:辅助诊断、生成鉴别诊断、推荐治疗方案,需医师最终把关。
文档生成与工作流:自动撰写病历摘要、报告或完成任务分配,提升文书效率。
患者互动与咨询:开展症状收集、健康宣教、心理疏导,强调对话连贯性与共情能力。
研究与发现:支持文献综述、假设生成、药物筛选等科研任务,加速知识发现。
自主程度分类
完全自主:可预设目标下自主规划并执行多步任务(如调用数据库、输出结论),目前仅限实验阶段。
人类在环(半自主):关键决策前须经医护人员审核确认,是当前主流模式。
被动助手:仅响应用户提问,无主动规划能力,功能类似传统聊天机器人。
工具与资源整合分类
知识整合型:依托检索增强生成(RAG)技术,融合指南、文献等外部知识,提升临床问答准确性。
工具增强型:通过函数调用或API接入医院信息系统、检验数据库、临床评分计算器等。
多模态型:支持图像、表格、音频等非文本输入,如分析放射影像并生成结构化报告,代表未来重点方向。
代表性医疗智能体系统
基于三维框架,综述汇总大量代表性系统,覆盖诊断、报告生成、患者咨询及药物发现等场景,并按功能、自治性与工具集成度进行归类,便于快速把握当前技术生态与差异化特征。
关键应用领域概览
医学影像与放射学:生成或汇总放射报告、辅助影像判读;例如GPT‑4阅读胸片后生成印象摘要已达住院医师水平,仍需医生审核。
临床决策支持:支持鉴别诊断、治疗建议、疾病分型;部分系统可结合电子病历与知识库输出可行路径,但多数仍为半自动模式。
文档自动化与工作流管理:自动撰写病历、出院总结、转录医患对话;如“EHR导航助手”可依语音指令查询检验结果并填充表单。
患者互动与康复管理:承担常见问题解答、健康宣教、慢病监测等任务,突出交互性与共情能力。
医学研究与药物发现:通过文献分析、假设生成与虚拟实验设计,加速科研进程;例如多智能体协同筛选候选分子。
综述指出,文档自动化与知识问答已具实际部署潜力,而全自动临床决策与多模态诊断尚处探索阶段。
通用医疗智能体架构
研究提炼出一种通用架构:以LLM为核心认知模块负责任务规划与推理,外接临床数据库、电子病历(EHR)API、医学图像分析工具等模块,并嵌入人类在环机制,及时纠偏,降低幻觉与偏见风险。
通用医疗智能体架构示意图。
核心技术比较
提示工程与链式思维(CoT):通过结构化提示激发逻辑推理,适用于问答与摘要;但依赖提示质量,缺乏外部知识支撑。
检索增强生成(RAG):将检索结果注入上下文再生成回答,显著缓解幻觉,适用于临床问答与文献综述;性能受限于检索质量与知识库覆盖度。
记忆机制:引入短期与长期记忆模块,存储历史对话与患者信息,提升个性化与连贯性;需优化检索与摘要策略。
工具整合与函数调用:通过API对接临床系统,赋予行动能力(如生成处方、分析影像);增加系统复杂度,需保障接口安全。
多智能体协作:将任务分解至多个专科代理,由主代理协调,提升诊断可靠性;需设计通信与记忆共享机制。
多智能体协作实践
为应对复杂临床流程,部分系统采用多智能体协作模式,各子智能体分工承担规划、检索、验证等职责,类比多学科诊疗团队。以RareAgents为例,其“主治医师”与专科智能体协同诊断罕见病,借助共享长期记忆与专业工具,在性能上超越GPT‑4o。
多智能体工作流示意图,多个子智能体协作生成医学影像报告。
记忆机制与人类在环
针对LLM上下文窗口限制,综述探讨外部记忆实现方式,如将对话摘要嵌入向量数据库,或采用分层记忆模块,使智能体可在新会话中调取关键历史信息。以MaLP框架为例,其短期记忆捕获近期对话,长期记忆保存患者关键事件,支撑个性化、连贯的临床建议。
智能体记忆集成示意图,展示短期和长期记忆帮助LLM保持对话上下文。
跨领域启示
教育科技:借鉴角色扮演与渐进式课程设计,模拟医患对话或制定分阶段诊疗计划,提升可用性。
机器人学:参考层次化规划架构(如PaLM-SayCan),将高层指令拆解为安全可控的底层操作序列。
科学发现:引入自动实验循环范式,系统性设计临床试验方案或自动分析药物组合效应。
这些跨学科经验表明,医疗智能体发展需开放借鉴任务分解、反馈闭环与安全控制等成熟方法论。
挑战与前景
能力广度与深度的权衡:大模型泛化能力强,但特定病种或操作精度不足,需结合专业模块或多智能体架构补强。
数据质量与缺失模态:电子病历常存在不完整、不规范问题,模型需学会表达不确定性,而非强行填补。
评估方法与真实世界差距:考试题或合成数据难以反映临床复杂性,应推进模拟场景测试与前瞻性临床试验。
事实可靠性与安全:幻觉仍是核心挑战,RAG、溯源引用与不确定性表达可缓解,但尚未实现绝对可信。
公平性与偏见:训练数据偏差可能导致群体间服务差异,评测需纳入多元患者背景并部署纠偏机制。
隐私与数据保护:须符合法规要求,采用本地部署、差分隐私与访问控制等技术防范泄露风险。
监管与伦理责任:责任归属尚不清晰,当前普遍要求医生对智能体输出终审负责,故需强化可解释性与合规性设计。
系统集成与实施:嵌入医院信息系统面临技术适配与人机协作双重挑战,需临床团队深度参与开发与推广。
未来演进:模型与算法持续进步有望缓解部分瓶颈,但可信部署仍高度依赖跨学科合作、严格验证与法规引导。
综述指出,文档自动化、知识检索等场景已具近期应用价值;而完全自主决策与多模态诊断,则属中长期发展目标。未来路径应在技术创新与安全规范之间取得平衡,确保智能体始终作为医生的可靠协作者。
结语
作为医疗AI领域最新综述,本文构建了系统性知识地图,为学术界、产业界与政策制定者共同推动可信赖临床AI发展提供重要参考。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

