大数跨境

医联MedGPT家小医完成患者真实测试,初步诊断相关率高达84.4%

医联MedGPT家小医完成患者真实测试,初步诊断相关率高达84.4% 医联Medlinker
2024-05-10
2

就医难看病贵诊疗过程耗费大量的时间和精力一直是困扰广大患者和家属的难题我国幅员辽阔人口众多医疗资源配置不均衡优质医疗资源主要集中在一二线城市的三级甲等医院中低线城市和农村的医疗资源十分紧缺患者就医的时间成本和经济成本都比较高,想要获得及时准确优质的医疗更是难上加难

因此如果能够依托于优质医疗资源依托科技的力量建立起可靠可信便捷的线上诊疗制度有望缓解三甲医院的诊疗压力也能大大降低患者的就医成本同时提升整体的医疗效率和诊疗质量

近日由医联自主研发的国内首款医疗大语言模型MedGPT发起了新一轮基于临床环境下的大规模真人模拟测试。医联邀请到20位主治医生组成专家评测小组在目标疾病的脱敏病历清单中抽取了200份有明确诊断意见的病历,邀请模拟患者与MedGPTAI医生进行问诊交流MedGPT的初步诊断结果与真人主治医生的诊断结果进行对比为了更加全面地评估MedGPT的表现医联也将此次的测试结果与国内目前公开的三款主流医疗大模型产品进行了对比评估分析

模拟测试结果显示MedGPT初步诊断的准确率命中率达到了60.2%相关率命中率+相似率高达84.4%可以媲美专业医生的诊断水平并显著优于另外三款主流医疗大模型产品的表现

参与测试的专家评测小组表示,MedGPT通过与患者进行多轮沟通,收集到了足够的病情信息,确保了初步诊断的准确性,在医疗辅助领域非常有发展前景。目前MedGPT是唯一一个通过了大规模对照试验的医疗模型,而且诊断准确率非常让人惊喜。专家们一致认为:“MedGPT在医疗大模型领域已经迈出了重要的一步,给患者线上初诊提供了更多选择,也在智慧医疗领域取得了里程碑式的突破。”

MedGPT完成大规模真人模拟测试线上初诊准确率让人惊喜

MedGPT20235正式发布这款基于Transformer架构医疗大语言模型聚焦于疾病预防线上诊断用药治疗就诊后康复等全流程的智能化诊疗能力的提升希望能在真实的医疗场景中发挥出更具效用的智能诊疗价值

考虑到我国患者的就医痛点医联在构建疾病测试数据集时优先选取了我国患者常见和多发的疾病按照发病率排序抽取病历同时也兼顾了少部分危重病以确保本次真人模拟的测试结果能够反映出MedGPT在居家和远程问诊场景中的适用性

本次测试抽取的200份病例中大多数是患者经常在网络上咨询问诊的疾病。比如皮肤疾病肠道疾病心脑血管疾病等也覆盖了婴幼儿常见病和中老年患者常见病模拟患者通过线上文字输入的方式MedGPT旗下的AI医生“家小医”和其他三家同类型大模型描述病情,AI医生会在几轮问诊后做出初步诊断结果如果模型的初步诊断结果与病例诊断结果一致,则认定该模型通过了测试。

在测试中42岁的男性模拟患者向家小医提问“很多天没有大便了现在肚子很胀2天前开始恶心呕吐家小医询问患者“近期有感觉到腹部疼痛吗”大便的颜色和形状是否有改变并要求患者描述疼痛的位置和性质最后询问了患者是否有酗酒肥胖吸烟的习惯在得到患者的回复后家小医给出了“肠梗阻”的初步诊断建议患者到消化内科或胃肠外科就诊由主治医生组成的专家专家评测小组判断为“结果准确诊断命中

参与对比测试的医疗大模型产品A同样给出了“肠道梗阻”的正确诊断但医疗大模型产品B则诊断为“便秘”产品C诊断为“肠道功能紊乱或便秘”均与患者的病情完全无关

在面对急重病症时家小医的表现也十分优异另一位模拟患者描述了婴儿“呼吸增快”“呼吸呻吟”“胸骨上下窝吸气性凹陷”等症状家小医与患者进行几轮沟通后准确地给出了“新生人呼吸窘迫综合症”的诊断并建议患者前往新生儿科及时就诊

在对200份病历进行测试后MedGPT家小医的诊断的准确率命中率达到了60.2%与病情相关的诊断相似率为24.2%84.4%的情况下都可以为患者提供有效的就医辅助而另外三款医疗AI产品的命中率分别为34.9%36.5%36.0%相关率为75.8%76.8%67.7%可以看出MedGPT在初步诊断命中率上处于行业内的领先水平


命中率

相似率

相关率

(命中+相似)

无关率

(错误+未回答)

MedGPT

60.2%

24.2%

84.4%

18.6%

真人医生

45%

25%

70%

30%

医疗模型产品1

34.9%

40.9%

75.8%

24.2%

医疗模型产品2

36.5%

40.3%

76.8%

23.2%

医疗模型产品3

36.0%

31.7%

67.7%

32.3%


参与模拟测试的一位专家长期关注医疗大模型的研发进展他指出根据我个人的了解MedGPT可能是目前最准的医疗大模型未来像家小医这样的AI医生能够参与到智能化诊疗流程里可以改善各地医疗资源不均衡的状况也能给我们医生群体提供很大的帮助

顶级专家医生参与MedGPT研发,攻克诊断难点

近年来人工智能技术飞速发展大语言模型也在各个领域中大展拳脚然而在面对医学问题时通用大语言模型在准确性上存在着天然缺陷在问诊和用药时通用大语言模型往往会轻率地给出结论对患者起不到有效的帮助甚至可能严重贻误病情

对于医疗领域而言准确性可靠性是底线问题医联的MedGPT聚焦于医疗垂直领域累积了20亿医学文本数据800万临床诊疗数据进行模型训练在技术层面MedGPT开创性地提出了快慢双系统AI结构将有意识慢速的AI1.0和无意识快速的AI2.0进行有机结合实现对真人专业医生完整思维模式的有效模拟

在模型的微调阶段MedGPT采用⼤量真实医⽣参与的RLHFReinforcement Learning from Human Feedback,人类反馈增强学习)监督微调来自华西医院华山医院北京大学第一医院首都儿研所中山医院中山大学孙逸仙纪念医院等国内顶尖医院的医学专家共同参与研发改进增加了MedGPT医学“含金量”提升了AI医生的疾病特征判断能力和准确度

模拟实验是检验AI诊疗产品有效性的关键标准20237MedGPT举行了国内首次AI医生与真人医生的一致性评测邀请到10位来自四川大学华西医院的主治医师和120余位真实患者进行评测研究并进行全天候直播最终形成了91份有效病例。经过来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授审核和评估,真人医生综合得分为 7.5分,AI 医生综合得分为 7.2分,MedGPTAI医生诊断与三甲主治医生在比分结果上的一致性达到了96%在业内处于领先水平也与本次的真人模拟测试的表现相符 

值得一提的是为了确保MedGPT进行线上初诊的可靠性在真人模拟测试完成后医联也请主治医生专家对32个错误诊断的案例进行了逐个分析医生们一致认为针对这样的疑难病历真人医生往往也无法通过远程的简单问询就能得出相对准确的诊断在真实的就诊过程中医生会要求患者在医院里完成各项指标检测才能得出准确诊断未来MedGPT还会持续更新迭代进一步提升初步诊断的可用性

人类医生能否规避?

很难规避

能规避

误诊可能性

非常可能误诊

有可能误诊

不太可能误诊

完全不可能误诊

数量

7

17

7

1


MedGPT深耕医疗大语言模型做医生的智慧AI助手

AI诊疗产品的想象空间有多大取决于AI医生诊断的可靠度可信度一致性有多高医联通过真人模拟测试以及与另外三款医疗AI产品进行对比验证了MedGPT已经具备了通过问询方式给到患者较高准确率的问诊能力对于医疗诊断的革新具备突破性的价值

目前MedGPT已经可以实现常见疾病咨询紧急处理咨询慢性病管理咨询诊后康复咨询等功能。患者不用再依靠搜索引擎获取未经过滤的医学内容在前往医院就诊前也可以通过与AI医生的简单咨询得到相对准确的初步判断大大降低了患者的就医成本和医院的诊疗压力

据悉医联与多位更高级别专家合作研发的AI医疗产品将在数月后正式面世。

未来医联将继续深耕大语言模型技术持续提升AI医生在医疗领域的实际应用价值争取覆盖常见病急病和危重病的就诊需求将医生从繁重的初级事务中解脱出来更多地把精力倾斜到疑难重病的诊疗中MedGPT秉持着为医生服务的初心成为医生诊疗过程中的“智慧AI助手”为医疗行业的技术发展持续贡献科技力量


【声明】内容源于网络
0
0
医联Medlinker
让全人类健康寿命延长一年
内容 153
粉丝 0
医联Medlinker 让全人类健康寿命延长一年
总阅读0
粉丝0
内容153