脱靶效应是药物研发失败的常见原因,尤其在心血管、肝、肾与中枢神经系统安全性方面表现突出。在早期阶段预测药物的潜在不良反应,对于最小化患者的健康风险、减少动物实验以及降低经济成本至关重要。随着虚拟筛选库规模的不断扩大,AI驱动的方法可作为一级筛选工具,为候选药物提供风险评估。
2023年Lunghini等人在Journal of Cheminformatics上发表了ProfhEX——一个基于AI的小分子风险评估平台。该平台融合了公开数据库ChEMBL与商业数据库GOSTAR的数据,通过严格的标准化流程与多重验证,构建了覆盖46个关键风险靶点(即已知与药物毒性强相关的生物靶点)的预测模型,可对小分子在7个相关的毒性类别上进行风险评估。所有模型均按OECD-QSAR原则进行设计与验证,并可免费在线使用,平台访问地址:https://profhex.exscalate.eu/。
图1. ProfhEX开发流程图:数据收集(ChEMBL + GOSTAR)→数据清洗与标准化→分子表征与特征选择→模型训练与超参优化→多重验证(内部 CV、bootstrap、y-scrambling)→外部盲测与部署
研究方法与内容
01
数据来源与规模
作者把两个来源的亲和力活性数据合并:公开的ChEMBL和商业的GOSTAR,按靶点(UniProt ID)抽提后,合并得到289,202条活性记录,对应210,116个不同化合物,覆盖46个靶点。这意味着模型训练时既有公开数据,也有经人工整理的商用数据,从而覆盖更广的化学空间。
图2. 46个选定靶点的蛋白家族分类
02
数据清洗与标准化
关键在于标准化与筛选:
只保留human(人源)的测定结果,避免不同物种间的生物学差异;
只选能变成连续数值的端点:IC50、EC50、Ki、Kd,并统一把它们换成pACTIVITY(−log M);
对于写着“>”或“<”的censored 值,论文直接把它们排除掉,以保证训练目标是纯连续值;
同一化合物对同一靶点有多条活性数据时,作者用中位数(median pACTIVITY)作为代表值。
图3. 46个选定靶点的整个化学空间的关键属性分布。箱线图描述了活性值,而直方图描述了若干理化性质(TPSA、logP、MW、rotB等)的分布,帮助理解数据的化学空间偏倚。
03
模型训练与评估
分子描述:研究采用RDKit生成11种理化性质,并结合EC和FC两类分子指纹进行编码(radius=6, 每个 1024 bit),总共2059个特征;
算法:主要采用了两种先进的机器学习算法:Gradient Boosting与Random Forest,最终以Gradient Boosting(GB)为主的模型表现最佳;
验证方式:严格按OECD-QSAR思路做 — 训练/测试分层(80/20),内部用5-fold CV、bootstrap、y-scrambling检验稳定性,再用全新的外部集盲测;另外还做了scaffold/diversity的拆分来检验泛化性能。
图4. 模型性能对比箱线图。展示不同算法(GB、RF、MLR)在多种验证策略下(5-fold CV、bootstrap、external test)的 R / R² / RMSE分布,反映GB在多数场景下为最佳候选。
04
平台输出与置信度
ProfhEX对每个输入分子输出46个靶点的pACTIVITY预测值,并以pACTIVITY ≥ 6.5(约 300 nM)为阈值标记“concern(C)”;
适用域(AD):单个模型用分子指纹的Tanimoto相似性(2048-bit,阈值 Tc>0.7)判断这次预测是不是“在模型熟悉的化学空间内”;最终把“满足单模型AD的模型比例”作为整体置信度分数,平台会把置信度一并返回给用户。
图5. 基于scaffold聚类展示的化学空间PCA。可看到不同scaffold在活性/空间上的分布。
05
模型性能与结果
在外部盲测上,champion模型平均R ≈0.84、R² ≈ 0.68、RMSE ≈ 0.69;分类AUC ≈ 0.92,EF5% ≈ 13.1。同时作者注意到一个现实问题:模型误差接近实验测定本身的变异(噪声),这意味着当训练数据本身不稳定时,模型的上限也受限。
图6.富集因子箱线图和Hit识别率曲线
- 结论 -
ProfhEX基于公共(ChEMBL)与商业(GOSTAR)数据,构建了46个遵循OECD标准的、基于配体的机器学习模型。这些模型基于统一标准化的靶点活性数据训练,构建在一个总计包含289,202条活性数据、涉及210,116个独特化合物的融合数据集之上。可评估7类重要的毒性风险,包括心血管、中枢神经系统、胃肠道、内分泌干扰、肾脏、肺部以及免疫反应毒性。与现有工具的对比证明了ProfhEX模型的预测能力,支撑了该平台在大规模风险分析中的实用性。
展望未来,ProfhEX将通过纳入新靶点以及采用互补的建模方法(如基于分子对接和药效团的模型)进一步扩展。
图7. ProfhEX网站工作流
参考文献
Lunghini F, Fava A, Pisapia V, et al. ProfhEX: AI-based platform for small molecules liability profiling. Journal of Cheminformatics. 2023;15(1):60.
往/期/回/顾

点击“阅读原文”申请试用/咨询订购~

