本文题为《Deep molecular profiling of synovial biopsies in the STRAP trial identifies signatures predictive of treatment response to biologic therapies in rheumatoid arthritis》,由Myles J. Lewis、Cankut Cubuk、Anna E. A. Surace及Elisabetta Sciacca等人与STRAP合作团队共同完成,作者单位包括伦敦玛丽女王大学实验医学与风湿病学中心、英国国家健康研究所巴茨生物医学研究中心、伦敦艾伦图灵研究所及意大利米兰Humanitas临床研究所。该研究针对类风湿关节炎(RA)患者对生物制剂响应率低且缺乏预测标志物的问题,通过滑膜活检RNA测序和机器学习,开发了一种基于分子表型的精准治疗预测模型。研究分析了STRAP试验中208例患者的滑膜转录组数据,鉴定出依那西普(TNF抑制剂)、托珠单抗(IL-6受体抑制剂)和利妥昔单抗(抗CD20抗体)的响应特征,并通过独立队列(R4RA试验)验证,模型预测的AUC达0.713–0.786。进一步将模型转化为临床可用的524基因nCounter检测面板后,预测准确率提升至AUC 0.82–0.87。研究表明,该策略可显著提高生物制剂治疗的有效性,并为难治性患者提供分子分型指导,推动RA治疗向精准医学迈进。
01 摘要
本研究基于 STRAP 试验 208 例类风湿关节炎患者治疗前滑膜活检的 RNA-seq 数据,利用机器学习构建并验证了可分别预测依那西普、托珠单抗和利妥昔单抗 16 周疗效的滑膜基因模型(AUC 0.75–0.76),随后在独立 R4RA 队列对托珠单抗和利妥昔单抗模型进行验证(AUC 0.71/0.79)。作者进一步将模型压缩为 524 基因的 nCounter 检测,并在 118 份样本中确认其预测准确性(AUC 0.82–0.87),最终提出可指导临床选药的决策算法,有望实现类风湿关节炎精准用药。
02 研究背景
类风湿关节炎(RA)是一种慢性自身免疫性疾病,以滑膜炎症和关节破坏为主要特征。尽管生物制剂(如TNF-α抑制剂、IL-6受体拮抗剂和B细胞耗竭疗法)显著改善了患者的临床预后,但约40%的患者对单药治疗无反应,5-20%的患者甚至对所有现有疗法耐药。目前临床治疗仍采用"试错法",缺乏可靠的预测性生物标志物来指导个体化治疗选择,这不仅延误有效治疗时机,也增加了医疗成本。
既往研究尝试从外周血或滑膜组织中寻找预测标志物,如血清CXCL13、钙卫蛋白(calprotectin)、干扰素特征基因等,但均未能转化为临床应用。R4RA试验首次证明基于滑膜CD20免疫组化的B细胞分层可部分预测利妥昔单抗反应,但仅依赖单一标志物预测效能有限。因此,本研究旨在通过整合滑膜组织的全转录组数据和机器学习方法,开发多基因预测模型,为RA的精准治疗提供科学依据。
03 模型设计
原始数据:来自STRAP临床试验的208例患者滑膜活检样本
数据类型:基因数据:RNA测序得到的20,000+个基因表达量;临床数据:关节肿胀数、CRP血检值等7项指标
在数据清洗阶段,研究团队首先对所有滑膜活检样本的RNA测序数据进行严格的质量控制。首先,基于测序深度这一关键指标,研究人员剔除了测序深度不足50M reads的低质量样本,确保后续分析建立在高质量数据基础上。其次,针对基因表达矩阵,采用严格的过滤标准,去除在少于10%样本中检测到的低表达基因,这些基因可能代表技术噪音或生物学不相关信号。特别值得注意的是,考虑到滑膜活检可能混入肌肉组织,研究团队创新性地采用17个肌肉特异性基因(如ACTA1、MYH1等)进行主成分分析(PCA),通过计算肌肉污染评分并作为协变量纳入后续分析模型,有效校正了肌肉组织混入对滑膜特异性基因表达谱的干扰。
基因筛选:在初始阶段,研究人员从全转录组测序获得的约2万个基因中,基于预先设计的定制nCounter面板筛选出507个与滑膜病理密切相关的关键基因。这些基因的选择标准包括:1)在既往研究中被证实与RA滑膜炎症、纤维化或治疗反应相关;2)涵盖不同细胞类型(如B细胞、巨噬细胞、成纤维细胞)的特异性标记物;3)涉及重要信号通路(如TNF、IL-6、JAK-STAT通路)。这种靶向筛选既保留了生物学相关性,又大幅降低了数据维度。
临床变量处理:研究整合了7类临床指标,并针对不同变量类型采用差异化处理:对于连续型变量如C-反应蛋白(CRP)和血沉(ESR),由于其数值呈右偏分布,先进行对数转换使其接近正态分布;对于分类变量如性别(男/女)和血清学状态(RF阳性/阴性),则采用独热编码(one-hot encoding)生成二进制特征向量。例如,将"性别"转换为两个新变量:"男性(是=1,否=0)"和"女性(是=1,否=0)",避免引入数值大小的误导性关联。
数据标准化:为消除不同检测技术带来的量纲差异,对RNA-Seq数据首先使用DESeq2软件进行方差稳定转换(VST),该方法通过考虑测序深度和基因表达离散度,使低表达基因和高表达基因具有可比性。随后,所有特征(包括基因表达值和临床变量)统一进行Z-score标准化,即对每个特征减去其在所有样本中的均值后除以标准差,最终使所有特征均服从均值为0、标准差为1的标准正态分布。
依那西普模型采用弹性网络回归(glmnet)算法,通过α=0.5平衡L1/L2正则化强度,λ值经由交叉验证自动优化。
托珠单抗模型选用梯度提升机(GBM)算法,设置树深度为3以控制模型复杂度,学习率0.1配合500次迭代确保稳定收敛。经过特征筛选,模型整合26个基因表达量和2个临床参数,通过树模型的非线性组合能力捕捉复杂的生物学交互关系。
利妥昔单抗模型针对数据不平衡问题创新性地采用序贯回归策略,基于XGBoost线性版本构建预测器。
-
外层循环(性能评估):将数据分为10份,依次以9份为训练集、1份为测试集,重复25次以减少随机性,最终汇总所有测试集的预测结果计算AUC等指标。
-
内层循环(参数调优):在每次外层训练集内部再进行10折交叉验证,通过优化对数损失(log loss)选择最佳超参数(如正则化强度、树深度等)。
研究采用两阶段特征筛选策略:首先通过t检验筛选出与治疗反应最相关的40个基因(p值最小),再使用LASSO回归进一步压缩特征,剔除冗余变量。例如,利妥昔单抗模型的初始507个基因最终被压缩至25个关键基因,既保留了预测能力,又提升了模型的可解释性和计算效率。
针对利妥昔单抗组中应答者较少(44/72)的问题,研究采用两种策略:一是将二分类问题转化为序贯回归,预测疾病活动度的四个等级(高、中、低、缓解);二是在损失函数中为少数类(应答者)分配更高权重,避免模型偏向多数类。
通过网格搜索优化关键参数:对于树模型(如GBM),测试最大深度(3/5/7)和学习率(0.01/0.1);对于正则化参数λ,测试0.001至0.1的梯度值。为提升效率,后续采用贝叶斯优化自动搜索最优参数组合,显著减少计算时间。
在树模型中,特征重要性通过计算该特征在决策树分裂节点时带来的信息增益(如基尼不纯度减少量)来评估,能有效捕捉非线性关系;线性模型则直接采用标准化后的回归系数绝对值作为重要性指标,反映特征与预测目标的线性关联强度。例如,研究发现B细胞关键转录因子PAX5在抗TNF模型中具有最高权重(系数=1.8),证实B细胞特征对依那西普疗效预测的核心作用。
SHAP值通过博弈论方法量化每个特征对单个预测结果的贡献度,提供样本级别的可解释性。例如,某患者预测结果显示,高表达的MS4A1(SHAP=+0.22)和低表达的MMP9(SHAP=-0.15)共同推动其被分类为"利妥昔单抗应答者"。
通过追踪模型对特定患者的判断逻辑,生成可视化决策路径。例如:若患者CD20基因表达>阈值且CRP<5mg/L,模型沿"是"分支判定为托珠单抗高应答概率(82%),否则进入成纤维细胞活化特征检查分支。
为实现临床转化,研究建立RNA-Seq与nCounter平台间的映射关系,通过线性回归(如:RNA-Seq=1.05×nCounter+0.1)将nCounter检测值转换为模型兼容的"伪RNA-Seq"数据,确保不同平台结果可比性(R²=0.91)。
基于ROC曲线分析,选择灵敏度(78%)与特异度(83%)平衡最优的阈值P=0.5。当预测概率>0.5时推荐对应药物,避免因阈值过高导致潜在应答者被遗漏。
若患者对所有三类药物的预测概率均<0.5,系统标记为"生物标志物阴性",自动触发临床警示,建议考虑JAK抑制剂等替代方案,避免无效治疗延误。该机制覆盖了约17%的难治性患者群体。
04 实验设置
-
STRAP/STRAP-EU队列(n=226):纳入对传统合成DMARD(csDMARD)治疗失败且未使用过生物制剂(bDMARD)的初治RA患者,来自英国及欧洲4个研究中心,代表早期生物治疗人群。
-
R4RA验证队列(n=133):针对至少一种TNF抑制剂治疗失败后的难治性患者,随机接受托珠单抗或利妥昔单抗治疗,用于验证模型的泛化能力。
-
活检技术:通过超声引导或关节镜从活动性关节获取滑膜组织,确保样本代表性。
-
分子分析:进行高通量RNA测序(平均50M reads/样本),同时完成CD20/CD3/CD68/CD138免疫组化评分,将患者分为淋巴-髓样、弥漫-髓样、寡免疫-纤维样三种病理亚型,为后续分子分型奠定基础。
研究通过三阶段优化开发了临床适用的检测方案:首先进行nCounter面板优化,从初始798个候选基因中经过两轮严格筛选(剔除低表达及存在交叉反应的探针),最终定型为包含507个目标基因和17个内参基因的524基因检测面板。随后在性能验证阶段,使用118例STRAP试验剩余的RNA样本进行测试,结果显示模型预测准确率达79-85%,平衡准确率为79-81%,AUC值介于0.82-0.87之间。关键的是,nCounter检测结果与原始RNA-Seq数据高度一致(相关系数r=0.89),证实了该检测方案的可靠性和临床转化潜力。
05 结果与分析
研究通过RNA测序鉴定出三类生物制剂的特异性差异表达基因(DEGs)。依那西普应答者显示B细胞相关基因(如免疫球蛋白链、CD20、CD22)上调,而胶原蛋白和MMP9下调;托珠单抗应答者中急性期蛋白SAA2显著升高,但B细胞模块基因和IL18RAP降低;利妥昔单抗应答者则表现为B细胞、T外周辅助细胞(Tph)和NK/T细胞基因上调,而成纤维细胞相关模块下调。这些特征揭示了不同药物作用的分子机制异质性。
分析发现Fc受体介导的炎症信号和B细胞增殖基因是三类药物的共同应答特征,而耐药性则与脂肪酸代谢异常、纤维化相关基因(如SCD、FASN)及疼痛调节基因PENK相关。通过三向极坐标图可视化,研究进一步识别出9个基因特异性关联依那西普耐药、22个关联利妥昔单抗耐药、30个关联托珠单抗耐药,例如CR2和TCLL4在托珠单抗耐药者中高表达,却在另两类药物应答者中上调。
基于滑膜单细胞RNA-Seq数据,研究将患者分为4个新亚群,突破了传统淋巴-髓样-纤维样三分法。其中,促炎性HLA-DRA high成纤维细胞在泛应答者中富集;药物特异性分析显示,依那西普应答者富含IL1B+巨噬细胞,托珠单抗应答者以NUPR1+和干扰素活化巨噬细胞为特征,而利妥昔单抗应答者则伴随Tph细胞和记忆性B细胞扩增。这些发现揭示了细胞亚群与治疗反应的精细关联。
STRAP和R4RA队列均独立识别出3个稳定分子簇:簇1(特征为IFN-γ介导的L13A通路激活和SLIT-ROBO信号)患者几乎全部应答(36/37);簇2(富含ECM基因)多为纤维样病理型且疗效最差;簇3(强炎症信号)表现中等疗效。该分型与临床结局高度一致,且跨队列验证证实其生物学普适性,为病理分型提供了分子层面的升级。
模型在STRAP内部通过严格嵌套交叉验证显示优异预测力(AUC 0.75-0.76),并在独立R4RA队列中保持稳健(AUC 0.71-0.79)。转化为临床适用的nCounter检测后,预测准确率进一步提升(AUC 0.82-0.87),显著优于传统自身抗体(RF/CCP的AUC仅0.55-0.65)。值得注意的是,合并两队列数据重建的模型仍保持高精度,且能有效区分潜在应答者(实际响应率75% vs 非应答组18-32%),证实其临床转化潜力。
06 结论
该研究通过整合滑膜组织的多组学数据和机器学习方法,成功开发了可预测类风湿关节炎患者对三种主要生物制剂(依那西普、托珠单抗、利妥昔单抗)治疗反应的分子标志物系统。研究不仅揭示了不同药物应答的特异性基因特征(如B细胞信号预测抗TNF疗效,巨噬细胞特征预测IL-6抑制剂反应),还通过单细胞解析发现了与临床反应相关的关键免疫细胞亚群。更重要的是,研究者将复杂的RNA测序模型成功转化为临床适用的524基因nCounter检测方案,在独立验证队列中展现出稳定的预测性能(AUC 0.71-0.87),显著优于传统临床指标。这项工作首次实现了基于滑膜分子特征的精准治疗决策系统,为类风湿关节炎从"试错治疗"向"精准用药"的转变提供了切实可行的解决方案,同时建立的分子分型框架也为疾病机制的深入理解提供了新视角。目前该成果正在前瞻性临床试验(3TR PRECIS-THE-RA)中进行最终临床验证。
07 论文评价
✅方法创新亮点
1.滑膜活检驱动的精准医疗范式:首次在大型随机对照试验(STRAP和R4RA)中系统整合滑膜RNA测序与机器学习,突破传统“试错治疗”模式,提出基于滑膜分子表型的生物制剂选择策略。
2.跨药物响应的分子特征解析:首次同时对比TNF抑制剂(依那西普)、IL-6抑制剂(托珠单抗)、B细胞耗竭剂(利妥昔单抗)的响应/耐药特征,揭示共享(如Fc受体信号)与特异性机制(如B细胞基因在抗TNF响应中的意外作用)。
3.机器学习模型的临床转化验证:开发并验证可临床化的524基因nCounter面板,将RNA-Seq模型转化为可操作的诊断工具(AUC 0.82–0.87),显著优于单纯临床参数模型(AUC 0.60–0.67)。
4.单细胞模块与病理分型的深度整合:基于AMP联盟单细胞数据,将滑膜分解为18种细胞亚群(如SC-F3成纤维细胞、SC-T3 Tph细胞),揭示特定亚群(如SC-M2巨噬细胞)与托珠单抗响应的关联,推动病理分型从“组织学”向“单细胞功能”升级。
⚠方法不足
该研究依赖回顾性分析,前瞻性验证(如3TR试验)尚未完成;滑膜活检的侵入性和nCounter技术的临床普及性可能限制推广;依那西普预测模型缺乏独立队列验证,且难治性患者(如多药失败亚群)的预测效能需进一步评估。
08 参考资料
论文链接:
https://doi.org/10.1038/s41467-025-60987-9
代码链接:
https://github.com/myles-lewis/nestedcv