发布MedBench 4.0，AI与专业医生同台竞技，成立医学AI评测联盟，浦江医学人工智能大会圆满举办

上海人工智能实验室

2025-11-21

导读：智汇医学 AI无界

11月20日，“智汇医学 AI 无界” 浦江医学人工智能大会暨首届上海市医学人工智能应用技能大赛总结会在上海成功举行。本次大会是落实国务院关于“人工智能+”行动的重要举措，汇聚学术、医疗及产业界的领导、专家与学者，共同探讨医学人工智能前沿进展、规范标准、落地路径与未来应用，集中展示中国医学人工智能进入标准化、体系化、全球化新阶段的实践成果。

本次大会由国家卫生健康委员会、上海市卫生健康委员会、上海市经济和信息化委员会、中共上海市网络安全和信息化委员会办公室、上海市数据局、上海市总工会、徐汇区人民政府、上海申康医院发展中心共同指导，上海人工智能实验室（上海AI实验室）、上海市医务工会、上海市医学人工智能创新与应用促进中心联合主办，上海市医疗大模型应用检测验证中心等多家单位协办及支持。

国家卫健委医政司副司长郑桐森，上海人工智能实验室党委副书记徐枫，上海市卫生健康委员会党组书记、主任闻大翔，上海市徐汇区区委副书记、区长王华出席会议并致辞。中国科学院院士、复旦大学附属中山医院名誉院长樊嘉，中国科学院院士、同济大学附属东方医院院长陈义汉发表主旨演讲。中国工程院院士、上海交通大学副校长、医学院院长范先群，上海申康医院发展中心党委书记赵丹丹，中共上海市委网络安全和信息化委员会办公室副主任杨海军，上海市卫生健康委员会副主任罗蒙，上海市数据局副局长钱晓，上海市总工会副主席桂晓燕，上海市经济信息化委总工程师裘薇出席本次会议。

评测平台全新升级，助力医疗AI发展

会上，上海AI实验室发布了全新升级的中文医疗大模型权威评测平台MedBench 4.0。作为全国首个且唯一面向垂模、专模、应用场景的医疗大模型评测与验证体系，MedBench 4.0为衡量医学AI产品性能与可靠性提供科学标尺。本次升级聚焦“实战化评测突破”与“生态化开放共建”两大核心方向，包含大语言模型、多模态大模型及智能体三大技术范式，深度对齐国家《卫生健康行业人工智能应用场景参考指引》，覆盖60个全自主构建评测集，共70万余专业评测题。

秉持开放合作的原则，上海AI实验室持续与医疗机构、科研院所和领军企业深化专科评测，并在MedBench 4.0中更新了4大挑战赛事，包括基于改良评分系统的临床多轮问诊能力自动化测评（Mini-CEX），中医临床科研综合能力深度测评（TCM-5CEval），儿科真实场景综合能力和临床动态进展思维能力双轨测评（PEDIASBench），随机对照试验循证证据质量评估（RCTBench），优化评测全场景覆盖能力。另外，上海AI实验室还搭建了开源医疗大模型园区OpenMedZoo，已开放首个高可靠性医疗安全伦理推理模型SafeMed-R1、全科基层医生大模型Med-GO等多个项目。

MedBench官网：https://medbench.opencompass.org.cn/home

人机协同智解疑难，大模型提升诊疗效率

在大会现场的“人机大战”实战演示环节，由顶尖医疗团队与AI大模型同台竞技。本次对决以“胃肠道疾病诊疗”为命题，参赛队伍包括：由资深消化内、外科主任医师组成两支人类战队和两支AI战队——位列MedBench官方自建榜首的Claude模型，以及上海AI实验室联合上海交通大学医学院附属仁济医院、上海第九人民医院共同研发的胃肠疾病多模态辅助诊疗大模型。

比赛题目从31例真实案例中现场随机抽取，四组选手同时对一名因食管占位及食管静脉曲张入院的73岁女性患者病例给出诊断和诊疗计划。

本次抽取的案例兼具典型性与复杂性，是一例早期胃癌同时合并有肝硬化食管静脉曲张等常规表现病例，对专业医生和AI大模型都是不小的挑战。两个AI大模型均在2分钟内给出结果，而两组人类医生的完成时间分别为12分01秒、13分50秒。AI大模型在响应速度上有显著优势。

上海市卫生健康委员会副主任罗蒙对赛题及各方表现进行了点评：在疾病诊断方面，胃肠大模型与人类医生均准确识别出核心问题，将食管肿瘤置于首要病因，病灶识别能力精准；通用模型Claude未能从胃镜图像中识别出肿瘤。在诊疗计划方面，胃肠大模型能提出内镜下检查与治疗等关键步骤，思路贴近三甲医生水平；两组医生团队的方案框架正确，但在针对早癌的进一步检查，可以进一步细化；通用模型Claude的诊疗方案则更偏向内科治疗，对外科手术干预等考量尚有欠缺。

罗蒙认为，“这场真实的比赛印证了AI可以成为医生的好助手一一它能高效处理海量信息，提供循证参考，有效提升医生的诊断效率及诊疗技术。未来，AI技术与医疗深度融合，必将实现更强大的医疗服务能力，实现‘1+1>2’的诊疗效能，为守护人民健康构筑起更坚实的防线。”

联盟聚力共筑基石，推进标准规范新程

为建立统一、科学、严谨的医学人工智能评测体系，推动行业向标准化、体系化新阶段迈进，上海人工智能实验室牵头成立“医学人工智能评测联盟”（以下简称“联盟”），拟广泛汇聚国内顶尖医疗机构、权威行业组织和领先科技企业参与。联盟致力于成为医疗人工智能测评与验证领域的核心力量，通过聚焦制定临床导向的评测标准、共建高质量标注数据集，以及探索多模态及智能体融合评测技术路线三大方向，搭建产学研用多方共创共建的交流合作平台，推动医疗AI技术在科学、规范、安全的轨道上发展。

《医疗大模型应用安全实施指南》（简称《指南》）标准草案同步发布，填补我国医疗大模型安全应用标准空白，为技术创新划定安全边界、提供实践准则。会上，复旦大学附属中山医院计算机网络中心副主任张俊钦结合《指南》中的规范条文，提出具体场景的操作要点与风险防控建议，为行业合规应用提供实用参考。

院士分享前瞻观点，智慧医疗照见未来

会上，中国科学院院士、复旦大学附属中山医院名誉院长樊嘉，中国科学院院士、同济大学附属东方医院院长陈义汉作主旨演讲，分享其在医学AI领域的前沿探索与真知灼见。中国工程院院士、上海交通大学副校长、医学院院长范先群院士主持本环节。

中国科学院院士、复旦大学附属中山医院名誉院长樊嘉围绕《综合类国家医学中心全场景智能化的顶层设计和探索实践》，详细阐述了中山医院在“十五五”期间建设综合类国家医学中心的顶层设计与创新实践。“核心路径是全面推进全场景智能化建设，旨在将医院打造成为卫生健康领域的‘国之重器’。”

中国科学院院士、同济大学附属东方医院院长陈义汉院士以《Med-Go 医学基座模型赋能医院高质量发展》为题，讲解了由东方医院牵头研发的通用医学基座模型Med-Go的应用前景。陈义汉院士指出，Med-Go能够将制度写入系统，实现风险前置管理，把医生的时间从繁琐文书工作中解放出来，进而用于更核心的判断与沟通。