
专业、公正、开放的评测体系是确保人工智能安全、高效发展的关键环节,它不仅是技术发展的“试金石”,也是连接技术与应用、促进跨领域合作的重要桥梁。
上海AI实验室正积极打造面向通用人工智能时代的创新开放评测体系司南(OpenCompass),涵盖通用大模型、安全可信、具身智能、AI计算系统、行业应用等领域,通过科学、公正、全面的评测,对模型与应用的性能、效率、安全性及可靠性作出评估,助力新技术在实际应用中达到预期标准;同时,通过评测识别出当前技术的不足之处,提供优化方向,激励研究者探索创新,进而构建安全、可信、公平的人工智能生态体系。
近日,医疗大模型开放评测平台MedBench升级至3.0版本,新增医疗多模态评测能力,针对真实应用场景,构建了文献问答、复杂推理、临床危急情况识别评测数据集,并继续向业界开放医疗大模型能力评测服务。
MedBench上线一年多来,已有近80家机构加入共建或参与评测,累计开展模型评测4204次,成为业内信赖的模型“度量衡”。通过评测,MedBench3.0揭示了当前医疗大模型普遍的能力长项与核心短板,并提出了优化路径,旨在与各方共建医疗大模型应用生态联盟,以AI助力健康中国建设。
-
医学知识问答维度数据集MedLitQA,用于评估模型对医学文献理解与推理; -
医疗安全和伦理数据集CriID,用于评估模型对临床危急值的识别能力; -
复杂医学推理维度的CMB-Clin-extended更新为自建数据集,可基于复杂真实病历,考察模型在真实诊断和治疗情境中的知识应用水平。
-
眼科多模态能力评测涵盖眼底彩照、OCT图像诊断、教育培训、分诊问诊、医学诊断、治疗方案设计、预后预测等多方面,全方位评估大模型在眼健康专科应用的性能; -
医学影像质控领域通过深入考察图像质量控制的准确性、报告规范性等关键指标,评估大模型在医学影像学图像及其报告质量控制方面的性能与效果; 影像报告测评则主要关注医学信息抽取及病因、治疗、健康影响和检查相关的复杂推理。
-
信息遗漏率较高:复杂医疗推理任务中,模型信息遗漏占该维度所有错误原因的96.3%,难以支持临床决策。 -
伦理决策不一致:面对随机打乱的伦理选项,安全伦理评估鲁棒性仅79%,暴露出安全风险隐患。 -
专业术语理解能力待提升:模型在处理专业术语和临床叙事的建模方面存在不足,在医学语言理解任务中,22.53%的错误来源于因果推断能力欠缺。 -
幻觉未能有效避免:针对医学语言生成任务,63.99%的错误由“模型幻觉”引发,难以满足临床安全需求。
-
阶段一 聚焦于数据质量、提示词工程和参数微调等低成本、高回报的优化措施。 -
阶段二 通过知识增强检索、多任务联合训练和伦理约束集成等方法,增强模型的医学专业知识。 -
阶段三 引入混合系统开展架构升级,结合符号逻辑与神经网络,并设计模块化推理框架。 -
阶段四 专注于长期技术创新,将医疗大模型与多模态预训练、因果推理模型等前沿研究结合。
李琳
上海交通大学医学院附属第九人民医院斜视与小儿眼科亚专业负责人
“我们团队深度参与MedBench眼科知识问答、OCT图像诊断和眼底彩照分析等核心评测任务建设,通过评测,眼科临床医生及研究者能够客观评估不同大模型在眼科知识理解与临床推理方面的能力,精准识别其优势与不足,从而为模型优化提供参考。”
王远成
东南大学附属中大医院放射科行政副主任
“基于放射科工作长期的数据积累,我们参与建设了MedBench首个质控数据集,用于评测大模型对胸部X线及CT报告等医疗影像分析能力。MedBench不仅为医疗AI的标准化、规范化提供宝贵的数据经验,同时促进了医院、研究机构间的跨领域交流合作,共同提升医疗服务质量及效率。”
上海中医药大学
该院智能医学工程相关专家认为,通过特色指标与任务集的建设,MedBench可对医疗模型知识掌握、中医药文献解析及临床决策能力进行科学评估,并指导下一步研发优化。在长期应用中,高性能的医疗模型可辅助医师提升辨证效率与处方精准度,推动中医药等学科领域诊疗智慧化,同时支持医学生研习与模拟训练,加速科研创新及人才培养。
蚂蚁健康
MedBench为行业提供了中立统一的基准,通过公开的评测结果,不仅能够展示自身的技术实力,还能从其他模型的表现中汲取经验,推动医疗大模型整体技术的良性竞争。
医渡科技
MedBench设定的评测维度,与临床实践的多样化需求高度契合,其中安全与伦理评测有效帮助研发人员识别了模型在药物禁忌等敏感领域的表现。期待未来Medbench持续扩展评测维度,以适应医疗AI技术的快速发展。
点击上图查看报告
点击上图申请评测服务



