大数跨境

医联自研MedGPT击败OpenAI-o3,问鼎全球第一

医联自研MedGPT击败OpenAI-o3,问鼎全球第一 医联Medlinker
2025-08-08
0
导读:医疗大模型从“能用”到“敢用、好用”,让技术突破真正转化为患者受益。

2025年8月,中国医疗科技企业医联集团(Medlinker)在康奈尔大学Arxiv平台正式发表最新研究成果——自主研发的医疗大模型MedGPT在国际权威对比评测中全面超越OpenAI-o3,成为该领域全球第一。

此次成果标志着中国在医疗AI核心技术上实现了里程碑式突破,并为全球医疗大模型建立了新的安全与有效性评测标准。

临床安全与有效性双轨标准

近年来,大型语言模型(LLMs)在医疗领域展现出巨大潜力,但医疗场景的应用门槛远高于通用场景:不仅要“答得出”,更要“答得对、用得安全”。一次错误建议在医疗领域可能直接影响患者生命安全,这对模型提出了接近“零容错”的要求。

为解决这一关键问题,医联团队提出并构建了临床安全-有效性双轨基准评估体系(Clinical Safety-Effectiveness Dual-Track Benchmark, CSEDB)。这是全球首个由临床专家主导制定、面向真实临床情境的大模型评测框架。

覆盖范围:30项临床关键指标,涵盖重症识别、指南依从性、用药安全等;

评测任务:数十位专科医生设计并审核2069个开放式问答任务,覆盖26个临床专科

创新方法:引入加权后果指标(Weighted Consequence Score),量化模型错误建议可能带来的临床风险。

横向评测结果:安全与有效性双第一

CSEDB测试结果显示,MedGPT在安全性(Safety)与有效性(Effectiveness)两大维度均排名第一,超越包括OpenAI-o3在内的多款国际通用大模型和垂直医疗模型。

Comparative Performance of Models across safety and effectiveness gates

对比了六个LLM在安全性和有效性两大门槛上的表现,MedGPT在两项指标上均居首。展示了不同评估维度下的平均得分,凸显MedGPT在整体能力上的稳定领先。

Comparison of LLM performance based on weighted categories

展示了模型在高风险与普通风险任务下的表现差距,MedGPT降幅最小。证明了MedGPT在危重场景下依然能保持高水准输出,稳定性优于其他模型。

稳定性表现:多轮问答一致性优势

CSEDB引入“Worst-at-K”指标评估模型在重复提问时的最差表现。结果显示;

Evaluating the trustworthiness of model grading

展示了“Worst-at-K”稳定性指标,反映模型在重复提问时的最差表现。MedGPT在k=10的所有情况下波动最小,稳定性明显优于其他模型。这意味着在多轮问答场景中,MedGPT更能保持一致且可靠的输出,不易出现极端错误。

安全性平衡:高有效性与高安全性并存

研究绘制了六个模型安全性与有效性得分的散点分布,展示两者间的平衡关系。
通用模型的安全性普遍低于有效性,反映出在临床应用中存在安全隐患;而MedGPT在临床应用中表现出更高的安全性,实现了高安全性与高有效性的兼得。

十年积累,三年人机协作磨合

CSEDB体系的发布和MedGPT的全球领先成绩,不仅是一次学术突破,更为医疗AI树立了可验证、可追责的落地标准。MedGPT的领先并非偶然:

六年模拟实验训练:形成精细化的专病专科推理能力;
三年深度人机协作磨合:医生深度参与,确保结果可追溯、可追责;
快系统+慢系统双引擎架构:兼顾处理效率与推理深度,有效抑制“AI幻觉”。

从实验室到全民可用:未来医生APP

基于MedGPT的技术成果,医联于2025年8月2日上线“未来医生”权威专家在线问诊平台:
核心特色:聚合来自全国知名三甲医院、担任国家级学会主委/副主委的权威专家团队,实现大专家图文问诊永久免费;
问诊流程:医生在AI的辅助下先完成病情收集、结构化分析与初步分诊,专家团队复核并出具最终医嘱;
增值探索:除免费问诊外,平台还将拓展基层协作、慢病管理、数字健康保险服务,让优质医疗资源覆盖更多人群。

备注:点击阅读原文,可查看论文原文。

点击这里阅读论文原文

【声明】内容源于网络
0
0
医联Medlinker
让全人类健康寿命延长一年
内容 153
粉丝 0
医联Medlinker 让全人类健康寿命延长一年
总阅读0
粉丝0
内容153