大数跨境
0
0

GOSTAR vs. ChEMBL—数据多样性和化合物覆盖范围

GOSTAR vs. ChEMBL—数据多样性和化合物覆盖范围 康昱盛
2023-09-14
1
导读:本文介绍了ADME数据中结构多样性的重要性,并比较了GOSTAR和ChEMBL,以确定哪个数据库更适用于提高预测模型的准确性。

使用ADME数据进行预测建模

据估计,近二分之一的候选药物将因疗效不足而在临床试验阶段失败,五分之二的候选药物曾因毒性而失败。[1] [2]监管机构和研究人员现在认识到,除了药理属性外,吸收、分布、代谢和排泄 (ADME) 研究,对于候选药物的成功也至关重要。过去十多年来,制药公司一直使用基于规则的筛选(例如 Lipinski五原则)来避免不需要的ADME特性。最近,他们开始依赖预测建模。

预测模型被用于评估药物的ADME特性,因此数据科学家需要大量的ADME数据来训练他们的算法。数据量至关重要,但数据多样性也同等重要。数据集中包含越多的独特化合物,模型就越有可能做出准确的预测。本文介绍了ADME数据中结构多样性的重要性,并比较了GOSTAR和ChEMBL,以确定哪个数据库更适用于提高预测模型的准确性。在进行了全面的数据交集分析后,结果表明GOSTAR数据的多样性是ChEMBL的2到7倍。

数据覆盖范围和数量:

对于准确的药代动力学预测至关重要

准确预测候选药物在人体内的动力学行为对于药物发现和开发至关重要。药代动力学通常分为四类:吸收、分布、代谢和排泄 (ADME)。计算化学家和数据科学家,通过构建人工智能 (AI) 和机器学习 (ML) 算法模型来分析 ADME数据,并预测候选药物的疗效和安全性。药物开发者需要选择有着与靶标最高成功相互作用概率和低副作用概率的候选药物,从药物开发阶段推向临床测试。因此,通过AI/ML模型对药物ADME进行准确预测至关重要。

准确性不足的预测可能会产生严重后果,其中最大的问题是浪费大量时间和资金。然而,往往导致不准确的并非模型和算法,而是数据本身。

决定数据质量的关键因素之一是数据集中包含的独特化合物数量。

考虑到准确的药代动力学预测在药物开发中的重要性,机器学习模型必须在具有大量独特化合物的ADME数据集上进行训练。药物研发投资人通常面临推进潜在候选药物的“Go/No-go”决策。为了提高他们对模型预测的信心,数据科学家选择的数据来源必须具有足够的结构多样性,以适应ADME预测模型参数的需求。

比较GOSTAR和ChEMBL中的数据多样性

用于构建预测模型的两个最受欢迎的数据源是GOSTAR和ChEMBL。两者都被药物化学家、计算科学家、药理学家和毒理学家用来支持药物发现和开发计划。他们的数据质量在制药行业受到高度重视。

但是,其中存在一些主要差异。其中最重要的是数据量;GOSTAR在化合物数量、生物活性、文献量和专利方面都大大超过了ChEMBL。[3]

但如果没有与多样性相匹配,数量上的优势将是无关紧要的。从这个关键方面来看GOSTAR数据与ChEMBL数据有何不同呢?

使用KNIME确定化合物覆盖率
为了比较GOSTAR和ChEMBL化合物集的分子相似性,我们使用了Konstantz Information Miner (KNIME)。KNIME是一个开源数据分析、报告和集成平台,具有构建机器学习和数据挖掘模型的工具和工作流。[4]我们选择了一系列广泛的ADME参数,并收集了来自GOSTAR和ChEMBL的搜索结果。
我们将文件上传并解析到KNIME中,并使用Molecule Type Cast节点将字符串转换为SMILES。然后,我们使用RDKit指纹节点生成1024位的哈希Morgan指纹,其循环半径为2。文献表明在寻找分子相似性时,该方法要比其他具有更高位数和半径的指纹,提供更快且可比较的结果。[5]
通过化学开发工具包(CDK)指纹相似性节点,计算了两个表中的Tanimoto相似系数。最后,我们使用连接器节点将节点结果连接,并使用直方图节点对结果进行可视化。

建立GOSTAR的数据优势
交集分析的结果很清楚。GOSTAR中独特化合物的数量是与ChEMBL数据库重叠的化合物数量的2到7倍(表2)。

GOSTAR和ChEMBL中独特化合物的比较 

*Overlap=ChEMBL和GOSTAR之间指纹相似度为1的化合物数量
**GOSTAR中的独特化合物=<0.98 Tanimoto相似度

毫无疑问,该测试表明,对于所示的ADME参数,GOSTAR相比ChEMBL包含更多独特的化学结构。GOSTAR在多样性方面的明显优势带来的影响是深远的。与ChEMBL相比,GOSTAR的ADME数据更适合寻求准确性更高预测模型的数据科学家和计算化学家。

GOSTAR数据在ML模型中提供更高的预测准确性

用于训练ML模型的数据结构多样性是其预测准确性的关键指标之一。因此,在选择数据源时,独特化合物的数量是一个重要的考虑因素。

交集分析结果显示,与ChEMBL数据相比GOSTAR数据具有明显的优势。此外,GOSTAR有庞大的数据库规模和基于人工整理校验的内容质控标准,显然基于预测建模的药物发现和开发计划的更好数据源。

GOSTAR为全球制药和生物技术公司寻求下一个重大突破,提供全面、可靠、高质量的数据。

原文请参考:https://www.excelra.com/our-thinking/blogs/gostar-vs-chembl/

References: (请上下滑动查看)

[1]Kennedy, T. (1997, October). Managing the drug discovery/development interface. Drug Discovery Today, 2(10), 436–444. 

https://doi.org/10.1016/s1359-6446(97)01099-4

[2]DiMasi, J. A. (1995, July). Success rates for new drugs entering clinical testing in the United States. Clinical Pharmacology & Therapeutics, 58(1), 1–14. 

https://doi.org/10.1016/0009-9236(95)90066-7

[3]ChEMBL Database. Retrieved March 3, 2023, from ChEMBL website: 

http://www.ebi.ac.uk/chembl/

[4]KNIME: Open for innovation. Retrieved February 22, 2023, from KNIME website: 

https://www.knime.com/

[5]Landrum, G. (n.d.). RDKit 2012 UGM. Retrieved 6 March 2023, from Rdkit.org website: 

https://www.rdkit.org/UGM/2012/


关于GOSTAR


Excelra公司的GOSTAR是一个可以帮助用户寻找和发现化合物的数据库。此外,还可通过API提供,并作为可下载的数据集为内部文库和机器学习模型提供支持。康昱盛科技是GOSTAR在中国的唯一代理商,负责GOSTAR的所有销售和技术支持工作。

🙋如果您想了解GOSTAR如何帮助您实现目标,请点击文末"阅读全文"与我们联系.





 往期回顾 

GOSTAR更新:最新功能增强

使用GOSTAR数据支持KRAS研究

HotSpot Therapeutics与Excelra的GOSTAR合作,强化变构药物发现工作


点击“阅读原文”咨询订购&申请试用~

【声明】内容源于网络
0
0
康昱盛
生物医药领域信息解决方案供应商:分子模拟、药物设计、基因组学、蛋白组学、生物信号通路分析、电子实验记录本、信息管理系统
内容 254
粉丝 0
康昱盛 生物医药领域信息解决方案供应商:分子模拟、药物设计、基因组学、蛋白组学、生物信号通路分析、电子实验记录本、信息管理系统
总阅读63
粉丝0
内容254