一、基础信息
由上海交通大学、复旦大学、上海交通大学医学院附属瑞金医院与蚂蚁集团联合发布,汇聚医学、高校及科技企业多方专业力量。白皮书旨在系统分析医疗健康大模型的技术路径、伦理挑战与安全风险,提出评测体系与提升策略,为行业智能化转型提供合规指引,保障患者权益与医疗服务质量。
二、概述
(一)大语言模型技术发展
传统判别式模型应用受限,2017年Transformer架构与GPT系列推动生成式AI突破。通过“预训练+微调”模式降低对标注数据依赖,模型规模持续扩大,进入大语言模型时代。在医疗领域,因对准确性、安全性与伦理合规要求极高,相关风险成为关键制约因素。
(二)医疗健康大模型概述
融合大语言模型的交互能力与海量医疗知识,基于专业文献与临床数据训练基座模型,并结合外部知识库增强推理能力,覆盖疾病诊断、个性化治疗等多个场景。依托医疗数字化积累,具备全面知识覆盖、高效数据处理与强交互优势,助力医疗服务提质增效。
三、大模型应用技术分析
(一)机遇与挑战
- 机遇:2010–2022年我国卫生总费用年均复合增长率达12.86%,医疗数字化加速推进。大模型在疾病诊断、个性化治疗、药物研发和影像分析等场景表现突出,显著提升效率与精准度。
- 挑战:面临数据隐私泄露、多源数据融合难、决策透明性不足、责任归属不清、算法偏见等伦理与法律问题,且各地监管政策差异大,需建立动态合规机制。
(二)开发技术
- 框架:涵盖数据层(清洗、脱敏)、训练层(预训练、微调、强化学习)、部署层(硬件适配、量化加速)与推理层(思维链、知识库辅助、反馈机制)。
- 数据:分为预训练数据(医学文献、数据库)、微调指令数据(诊疗记录)与推理引用数据(临床指南、教科书)。
- 训练与部署:包含预训练、监督微调(SFT)与基于人类反馈的强化学习(RLHF);部署阶段采用模型量化与注意力优化等技术提升推理效率。
- 推理特点:强调高准确性(多轮对话+思维链)、强解释性(可追溯推理路径)、个性化服务(整合个体健康数据)、持续学习能力及对复杂伦理问题的应对机制。
(三)应用框架与案例
- 框架:以大模型为核心,集成意图识别、安全风控、工具调用模块与RAG(检索增强生成)组件,提升响应准确率与安全性。
- 案例:小瑞健康(健康管理)、夸克健康助手(权威问答)、AI健康管家AQ(导诊挂号、药盒识别)等实现全流程服务;百度灵医、医联MedGPT等亦具代表性,但普遍面临数据安全、专业性与合规共性挑战。
四、医疗大模型评测
(一)通用框架
- 任务定义:评估基础能力(理解、生成)与垂直领域应用能力(事实性、推理、安全性)。
- 数据准备:整合网络爬虫、权威文件、临床业务与社区问答数据,构建分类与生成类题型。
- 评测方法:采用Zero-shot、Few-shot等多种Prompt方式,结合准确率、F1值等客观指标与流畅性、安全性等主观评价,辅以GPT-4辅助评分与对抗测试。
(二)医疗领域评测
- 核心维度:聚焦科学性(专业知识与逻辑)、安全性(风险识别)、合规性(法规遵循)与伦理道德(隐私保护、公平性),并列举多个中文医疗评测集作为参考。
- 实践案例:以上海AI Lab发布的MedBench为例,设置五大评测维度,涵盖30万道题目,引入模拟问诊对话测试,强调持续监控与开放平台建设。
五、伦理与法律评测框架
(一)风险
主要包括知情同意不充分、患者隐私泄露、数据歧视、算法黑箱、幻觉输出误导、违反医疗法规与伦理准则等问题。
(二)评测框架
- 场景:划分科研、临床、护理、健康管理与公共卫生五大领域,细化24个具体应用场景。
- 数据集:构建伦理规范与法律法规数据集、评测考点库,制定主观题六维度评分标准。
- MedEthicEval 数据集:专注于医疗安全、合规与伦理问题,公开数据并持续迭代优化。
六、伦理与安全提升措施
- 风险防控:实施全生命周期数据安全管理,应用隐私计算技术;建立第三方伦理审查机制,防范偏见;强化技术可追溯性与动态评估,推动权威评测与协同监管。
- 专业性提升:通过医疗专有数据微调、优化意图识别精度、引入RAG技术等方式提升模型专业水平。
- 伦理法规对齐:将伦理原则与法律法规嵌入模型设计,开展伦理微调与反馈训练,实施风险分级管理。
- 人才培养:完善跨学科教育体系,推动医学与AI人才协同培养,建立持续学习与认证评估机制。

