大数跨境

1区7.5分!机器学习(RF/AdaBoost/SVC/XGBoost)优化神经梅毒诊断:基于1648例HIV阴性患者,对比6种国际指南!免费在线工具助力临床决策

1区7.5分!机器学习(RF/AdaBoost/SVC/XGBoost)优化神经梅毒诊断:基于1648例HIV阴性患者,对比6种国际指南!免费在线工具助力临床决策 CNS生信新靶点挖掘
2026-05-26
2
导读:神经梅毒(NS)的诊断长期缺乏金标准,临床高度依赖多学科协作和脑脊液(CSF)检测,在资源有限地区难以普及。本研究基于1648例HIV阴性梅毒患者的真实世界数据,首次系统比较了5种机器学习算法在6种国

图片

神经梅毒(NS)的诊断长期缺乏金标准,临床高度依赖多学科协作和脑脊液(CSF)检测,在资源有限地区难以普及。本研究基于1648例HIV阴性梅毒患者的真实世界数据(来自广州、北京、厦门、西雅图四中心),首次系统比较了5种机器学习算法(随机森林RF、AdaBoost、支持向量机SVC、NuSVC、XGBoost)在6种国际神经梅毒诊断指南(中国2020、欧洲2020、澳大利亚2022、UpToDate 2020、美国CDC 2018、美国2021治疗指南)下的诊断性能。结果显示:所有模型AUC和PRAUC均>0.90,校准良好,临床净收益显著。SHAP特征重要性分析表明,神经系统症状、CSF蛋白和CSF白细胞计数是大多数指南中最稳定的核心预测指标。研究还发现,不同指南的最佳算法存在差异——XGBoost在欧洲、澳大利亚和美国2021指南中表现最优,RF在中国指南中最佳,SVC/NuSVC在特定指南中更优。研究者同时开发了免费在线工具(https://neurosyphilis-prediction.streamlit.app/),可根据不同诊断标准为个体患者提供风险预测。

今天给大家解读一篇4月发表在《Emerging Microbes & Infections》上的题目为“Optimizing machine learning-based diagnosis of neurosyphilis in HIV-negative patients: a multicenter, real-world comparison of international diagnostic criteria.”的文章。本研究是一项多中心研究,旨在优化HIV阴性患者神经梅毒的机器学习诊断方法。研究团队根据六项国际诊断指南开发了相应的机器学习模型,并使用来自中国和美国的四个中心的真实世界数据进行了训练与外部验证。最终,研究将性能优异的模型集成到一个免费的在线工具中,为临床医生提供诊断决策支持。请持续关注我们,每天为您解读最新见刊的文献!)想薅生信资料羊毛?直接在对话框回复 “资料”,免费领取干货大礼包!包括数据集、绘图代码、图表复现、思路总结、参考文献……0代码!鼠标点点点即可轻松完成5-10分生信SCI全文复现!

不想做实验,没数据,还想要快速发表文章,没问题的!公共数据库就是我们的数据宝藏!没思路不用担心,作为专业的生信团队,我们很乐意为你们效劳,提供研究路线设计和数据挖掘分析,扫码联系我们吧!

图片





图片
图片





图片

图片
图片
图片
图片

团队成员合影(位于上海陆家嘴中心,可随时预约参观)


                                    (向下滑动查看更多)

图片
图片




题目:《在HIV阴性患者中优化基于机器学习的神经梅毒诊断:国际诊断标准的多中心真实世界比较Optimizing machine learning-based diagnosis of neurosyphilis in HIV-negative patients: a multicenter, real-world comparison of international diagnostic criteria

发表期刊:Emerging Microbes & Infections

影响因子:7.5

研究背景

神经梅毒在全球范围内持续上升,但其诊断仍然具有挑战性。传统诊断通常需要多学科专业知识和多种脑脊液检测,而在资源有限的环境中,这些检测难以获得。



                            CNSknowall 平台 Pubmed+AI 快速提炼全文要点

                            图片



                            研究思路:

                                1. 数据收集
                                  从四个中心(广州、北京、厦门、西雅图)收集了1648例疑似神经梅毒病例。
                                2. 队列划分
                                  以广州队列作为训练队列,其他三个中心的队列作为外部验证队列。
                                3. 模型开发
                                  针对六项国际诊断指南,使用随机搜索和三折交叉验证训练了五种机器学习算法(随机森林、Adaboost、SVC、NuSVC、XGboost)。
                                4. 性能评估
                                  使用AUC、PRAUC、校准曲线、决策曲线净收益、Brier评分和SHAP等多种指标全面评估模型的区分能力、校准度、临床效用和可解释性。


                                研究亮点:

                                    1. 模型性能优异:所有机器学习模型在不同指南下均表现出优秀的区分能力(AUC和PRAUC >0.90),并具有良好的校准性、可靠性和积极的临床实用性。
                                    2. 关键预测因子一致:无论模型或指南如何,神经系统症状、脑脊液蛋白和脑脊液白细胞计数始终是最强的预测因子。
                                    3. 实用工具开发:研究提供了一个免费、基于网络的工具,将模型操作化,为全球临床医生提供符合当地诊断标准的适应性决策支持。


                                    研究结果:

                                        1. 预测因子
                                          在所有模型和指南的分析中,神经系统症状、脑脊液蛋白和脑脊液白细胞计数 consistently ranked as the strongest predictors。
                                        2. 模型性能
                                          所有模型均取得了优异的区分能力(AUC和PRAUC >0.90),并且具有良好的校准度、可靠性和积极的临床效用。不过,模型性能因所采用的诊断指南不同而存在 modestly 的差异。


                                        研究总结:


                                        1. 研究发现,最优的机器学习诊断方法取决于所应用的诊断定义。这表明在开发和评估诊断模型时,必须明确其基于的诊断标准。
                                        2. 研究所开发的免费在线工具实现了这些模型,旨在为全球临床医生提供与当地诊断标准相适应的决策支持,有望帮助应对不同资源环境下的诊断挑战。






                                        结果译文:

                                        1. 队列特征


                                        总之,本研究共纳入1648例HIV阴性梅毒感染者。其中,来自广州的659例作为开发队列,来自北京、厦门和西雅图的480例、493例和16例分别作为三个独立的外部验证队列。按6种诊断指南划分的四个队列的二分类结果见补充表S3。


                                        2.特征重要性


                                        描述特征重要性的另一个方面是,在这六种标准或模型中,哪些变量最常被选中。我们通过Shapley值评估了特征重要性(图2)。
                                        基于五种模型生成的特征重要性排序,我们确定了一个关键诊断指标的共识组合。这些特征是通过综合评估(既考虑其在所有模型中的排序一致性——每个模型均来源于不同的诊断指南,又兼顾其在常规临床实践中的适用性和可行性)而选出的。在中国2020、欧洲2020、UpToDate 2020和美国2021指南中,神经系统症状、CSF蛋白和CSF白细胞计数在所有模型中均持续作为主导预测因子出现,相应的Shapley值范围分别为0.062-0.315、0.040-0.111和0.025-0.240。在澳大利亚2022框架下,神经系统症状、CSF TPPA、CSF白细胞和CSF蛋白被反复确定为主要贡献变量,Shapley值范围分别为0.186-0.237、0.090-0.216、0.016-0.054和0.009-0.031。对于美国CDC 2018指南,神经系统症状和血清NTT始终位列前茅,Shapley值范围分别为0.345-0.449和0.056-0.075(表1)。在广州队列中,仅有CSF TRUST数据可用。鉴于其与CSF RPR的诊断等效性,引入了一个组合变量CSF NTT来代表CSF TRUST或CSF RPR。从临床角度看,在梅毒患者中,神经系统症状、CSF蛋白和CSF白细胞计数是区分神经梅毒与非神经梅毒病例的相对稳定且可重复的指标。

                                        3.不同ML模型的性能与比较


                                        机器学习模型在外部验证数据集中的总体预测性能见图3和补充表4。
                                        图中不同颜色的线条代表每个模型接收者操作特征曲线下面积的值。几条ROC曲线完全重叠,因为它们的ROC曲线下面积值相同。总体而言,六种指南的五种模型的AUROC均高于0.9,表明在我们的队列中具有出色的预测性能。其中,RF和AdaBoost模型在所有指南中表现尤为出色且一致。
                                        对五种模型进行了精确率-召回率曲线分析,以评估模型能否捕捉到阳性患者(图4和补充表4)。六种指南的五种模型的精确率-召回率AUC均超过0.9,表明它们在检测阳性患者方面具有很高的能力。具体而言,AdaBoost在六种指南中表现出至少0.98的最佳精确率-召回率AUC,表明其在区分阳性和阴性患者方面的优越性。
                                        在外部验证中,所有模型均表现出优异的预测性能,并在所有六种指南中显示出良好的诊断性能可靠性和置信度(图5)。Brier评分进一步量化了这种可靠性:XGBoost在欧洲2020和美国2021下表现最佳,RF在中国2020和UpToDate 2020中表现出色,而NuSVC和SVC模型分别在澳大利亚2022和美国CDC 2018中表现最佳(补充表S5)。

                                        4.净收益


                                        决策曲线分析显示,所有模型在识别真实神经梅毒病例方面均产生了明显的净收益,优于两种参考策略——“全部治疗”和“不治疗”方法。每个模型均显示出有利的净收益,如补充图S1和补充表S6所示。
                                        对于中国2020,RF模型具有最佳净收益,XGBoost和SVC模型的净收益相似。对于欧洲2020、澳大利亚2022和美国2021,XGBoost模型具有最佳净收益,RF和SVC模型的净收益相似。对于UpToDate 2020,SVC具有最佳净收益,NuSVC和RF模型的净收益相似。对于美国CDC 2018,NuSVC具有最佳净收益,SVC和XGBoost模型的净收益相似。

                                        更多结果和补充图表:doi:   10.1080/22221751.2026.2648888



                                        图片



                                         长按二维码关注我们,用最短的时间和最高的效率学习更多生信思路!
                                        图片
                                        图片

                                        扫描上方二维码或登录平台官网后添加CNSknowall客服微信咨询!官网地址:https://cnsknowall.com

                                        CNSknowall:24年最新问世的遥遥领先的颠覆性科研数据(0代码生信+统计学)分析平台,同时含有机制图模块(原创3000多素材和机制图模板)+AI一键生成高质量比国自然标书初稿+汉化版Pubmed融合Deepseek高效筛选目标文献同时一键提炼全文核心创新点+SCI文献例句/语料检索模块+全文翻译+文献求助+图片查重+期刊查询+OPenAI官方GPT接口,>500款CNS级别图表皆可一秒内一键出图,登录即秒变数据分析大神,体验前所未有的便捷数据分析之旅,开启科研天骄之路!

                                        可向下滑动发掘更多科研秘籍!

                                        图片

                                        图片图片


                                        图片


                                        图片

                                        图片

                                        图片

                                        图片


                                        图片

                                        图片

                                        图片





                                        【声明】内容源于网络
                                        0
                                        0
                                        CNS生信新靶点挖掘
                                        每日汇总固定几本期刊上月最新见刊的生信类研究SCI!
                                        内容 306
                                        粉丝 0
                                        CNS生信新靶点挖掘 每日汇总固定几本期刊上月最新见刊的生信类研究SCI!
                                        总阅读121
                                        粉丝0
                                        内容306