医联自研MedGPT击败OpenAI-o3，问鼎全球第一- 大数跨境

医联Medlinker

2025-08-08

导读：医疗大模型从“能用”到“敢用、好用”，让技术突破真正转化为患者受益。

2025年8月，中国医疗科技企业医联集团（Medlinker）在康奈尔大学Arxiv平台正式发表最新研究成果——自主研发的医疗大模型MedGPT在国际权威对比评测中全面超越OpenAI-o3，成为该领域全球第一。

此次成果标志着中国在医疗AI核心技术上实现了里程碑式突破，并为全球医疗大模型建立了新的安全与有效性评测标准。

临床安全与有效性双轨标准

近年来，大型语言模型（LLMs）在医疗领域展现出巨大潜力，但医疗场景的应用门槛远高于通用场景：不仅要“答得出”，更要“答得对、用得安全”。一次错误建议在医疗领域可能直接影响患者生命安全，这对模型提出了接近“零容错”的要求。

为解决这一关键问题，医联团队提出并构建了临床安全-有效性双轨基准评估体系（Clinical Safety-Effectiveness Dual-Track Benchmark, CSEDB）。这是全球首个由临床专家主导制定、面向真实临床情境的大模型评测框架。

覆盖范围：30项临床关键指标，涵盖重症识别、指南依从性、用药安全等；

评测任务：数十位专科医生设计并审核2069个开放式问答任务，覆盖26个临床专科；

创新方法：引入加权后果指标（Weighted Consequence Score），量化模型错误建议可能带来的临床风险。

横向评测结果：安全与有效性双第一

CSEDB测试结果显示，MedGPT在安全性（Safety）与有效性（Effectiveness）两大维度均排名第一，超越包括OpenAI-o3在内的多款国际通用大模型和垂直医疗模型。

Comparative Performance of Models across safety and effectiveness gates

对比了六个LLM在安全性和有效性两大门槛上的表现，MedGPT在两项指标上均居首。展示了不同评估维度下的平均得分，凸显MedGPT在整体能力上的稳定领先。

Comparison of LLM performance based on weighted categories

展示了模型在高风险与普通风险任务下的表现差距，MedGPT降幅最小。证明了MedGPT在危重场景下依然能保持高水准输出，稳定性优于其他模型。

稳定性表现：多轮问答一致性优势

CSEDB引入“Worst-at-K”指标评估模型在重复提问时的最差表现。结果显示；

Evaluating the trustworthiness of model grading

展示了“Worst-at-K”稳定性指标，反映模型在重复提问时的最差表现。MedGPT在k=10的所有情况下波动最小，稳定性明显优于其他模型。这意味着在多轮问答场景中，MedGPT更能保持一致且可靠的输出，不易出现极端错误。

安全性平衡：高有效性与高安全性并存

研究绘制了六个模型安全性与有效性得分的散点分布，展示两者间的平衡关系。

通用模型的安全性普遍低于有效性，反映出在临床应用中存在安全隐患；而MedGPT在临床应用中表现出更高的安全性，实现了高安全性与高有效性的兼得。

十年积累，三年人机协作磨合

CSEDB体系的发布和MedGPT的全球领先成绩，不仅是一次学术突破，更为医疗AI树立了可验证、可追责的落地标准。MedGPT的领先并非偶然：

六年模拟实验训练：形成精细化的专病专科推理能力；

三年深度人机协作磨合：医生深度参与，确保结果可追溯、可追责；

快系统+慢系统双引擎架构：兼顾处理效率与推理深度，有效抑制“AI幻觉”。

从实验室到全民可用：未来医生APP

基于MedGPT的技术成果，医联于2025年8月2日上线“未来医生”权威专家在线问诊平台：

核心特色：聚合来自全国知名三甲医院、担任国家级学会主委/副主委的权威专家团队，实现大专家图文问诊永久免费；

问诊流程：医生在AI的辅助下先完成病情收集、结构化分析与初步分诊，专家团队复核并出具最终医嘱；

增值探索：除免费问诊外，平台还将拓展基层协作、慢病管理、数字健康保险等服务，让优质医疗资源覆盖更多人群。

备注：点击阅读原文，可查看论文原文。

点击这里阅读论文原文

【声明】内容源于网络

医联Medlinker

让全人类健康寿命延长一年

内容 153

粉丝 0

医联Medlinker 让全人类健康寿命延长一年

总阅读0

粉丝0

内容153