大数跨境
0
0

深度学习辅助基于碳谱的结构解析成果接连登上分析化学顶级期刊

深度学习辅助基于碳谱的结构解析成果接连登上分析化学顶级期刊 DrugFlow
2023-03-23
2
导读:CReSS和CMGNet基于深度学习算法分别从两个角度实现了人工智能结构解析,极大地加速了有机化合物的结构解析的过程。
(全文共有4355字,预计阅读11分钟)
有机化合物的结构解析是化学研究的重要方向,广泛地存在于有机化学、药物化学和天然产物化学等领域。通常专家会凭借核磁共振碳谱等分子谱图,结合自己的经验并查阅文献资料,以确定未知化合物的分子结构。然而,这种传统的人工解析流程耗时长,效率低且时常出现解错结构的情况。对此,CReSS和CMGNet基于深度学习算法分别从两个角度实现了人工智能结构解析,极大地加速了这一过程,这两项工作接连登上分析化学领域的顶级期刊Analytical Chemistry。DrugFlow平台目前已经上线这两个智能系统。

一 、 CReSS

2021年,碳硅智慧团队与中国医学科学院药物研究所汪小涧课题组合作在分析化学领域顶级期刊Analytical Chemistry上发表的题为“Cross-Modal Retrieval between 13C NMR Spectra and Structures for Compound Identification Using Deep Contrastive Learning”的论文,并作为当期封面文章被评选为ACS Editors’ Choice,系统报道了基于跨模态深度对比学习方法建立的分子结构识别的CReSS智能系统。该研究对未知分子结构,特别是天然产物分子的结构识别与纠错,具有重要的意义。
图. Analytical Chemistry官网
基于跨模态深度对比学习方法构建的CReSS分子结构智能识别系统对未知分子结构,特别是天然产物分子的结构识别与纠错,具有重要的意义。相关研究内容及成果于2021年以“Cross-Modal Retrieval between 13C NMR Spectra and Structures for Compound Identification Using Deep Contrastive Learning”为题发表于分析化学领域权威期刊Analytical Chemistry上,并作为当期封面文章被评选为ACS Editors’ Choice。

关于CReSS的研究方法

与使用碳谱数据搜索碳谱库的传统方法相比,CReSS基于深度学习跨模态对比学习技术建立了化合物碳谱与结构之间直接对应关系,并能够用化合物的碳谱在分子结构库中进行结构检索。
跨模态检索需要找到一个可以直接比较碳谱数据和分子结构的公共表示空间。在CReSS系统构建过程中,碳谱被表示为具有化学位移值的数字列表,范围从 -50.0 到 350.0 ppm。化学结构由 SMILES表示,这也是数据库中常用的分子文本表示方法。如图所示,分别基于Transformer和CNN-MLP构建了SMILES编码器和NMR 编码器,并通过对比学习联合训练一个多模态嵌入空间,从而用于构建CReSS系统。在此之前,首先基于化合物库PubChem中收录的1亿分子的SMILES对SMILES编码器进行预训练,以使其充分理解以SMILES表示的分子语法规则。
在对比学习训练完成之后,通过将结构数据库中分子的 SMILES 字符串输入到经过训练的SMILES编码器,将所有结构数据库中的SMILES字符串转换为表征分子结构的特征向量,组成用于检索的参考结构库。基于准备好的参考结构库和经过训练的NMR编码器,CReSS系统被构建出来。CReSS包含两个阶段:特征提取阶段和库搜索阶段。在第一阶段,经过训练的 NMR 编码器将碳谱谱图数据转换768维的特征向量。在库搜索阶段,使用NMR谱图特征向量与参考结构库中的结构特征特征向量进行余弦相似度比较。最后,通过对余弦相似度分数进行降序排序,得到一个包含候选分子结构及其排名的列表。
图 CReSS的训练和推理流程

结果

CReSS在外部测试集的碳谱结构检索任务中表现出显著的性能。对包含1040万个分子的参考结构库搜索了41,494条碳谱数据,每条数据查询的处理速度仅为 0.114 秒,top10召回率准确率达到 91.64%。在加入容差为 5 Da的分子量过滤器后,CReSS 在top10上实现了 98.39% 召回率。此外,CReSS 被用来测试其对新化合物的结构骨架预测能力,即能否在参考结构库中找到类似的结构骨架。如图2所示,实验表明,该系统在三萜等多种类别的化合物上表现出优异的性能。进一步的研究表明,如果结构预先包含在参考库中,CReSS 可以检索到相同的结构,这说明了 CReSS 的高识别精度和增加参考库容量的重要性。
图 CReSS在结构解析上的表现
另外,为了评估 CReSS 在结构纠错方面的表现,8条碳谱数据和对应的 8对结构被收集起来,其最初确定的结构在后来的出版物中进行了修正。如表1所示,CReSS 为修改后的结构提供了比原始结构更高的相似度分数。CReSS 在识别正确结构方面的出色表现表明,CReSS 有可能帮助研究人员在形成他们最初的结构假设的过程中避免犯此类错误。
表 CReSS在结构解错上的表现

二、  CMGNet

继CReSS表现出卓越的化合物识别能力之后,碳硅智慧团队与中国医学科学院药物研究所汪小涧课题组再度合作,并于2023年3月在Analytical Chemistry上发表题为“Conditional Molecular Generation Net Enables Automated Structure Elucidation Based on 13C NMR Spectra and Prior Knowledge”的文章,简称CMGNet( Conditional Molecular Generation Net),即多约束条件下的分子生成模型,从而彻底摆脱了此前CReSS对于分子结构库的依赖,实现了接收碳谱数据作为输入直接生成分子结构,还能够接收专家推断的分子式和分子片段作为额外输入,以解析结构。
图. Analytical Chemistry官网

关于CMGNet的研究方法

训练流程:
CMGNet基于双向自回归Transformer构建而成,可根据核磁碳谱数据、分子式以及分子片段等多个条件约束生成出未知化合物的分子结构。如图3所示,它的训练流程主要包括3个阶段:(1)在3.8亿分子结构数据集上进行预训练,以学习分子的语法,并学会生成满足分子式以及分子片段约束的分子;(2)在4500万分子及模拟的碳谱数据对上进行微调,学习生成满足核磁共振碳谱数据、分子式以及分子片段约束的分子;(3)在40万分子及实验测得的真实碳谱数据上进行微调,学习生成满足核磁共振碳谱数据、分子式以及分子片段约束的分子。
推理流程:
通过多种预训练和微调任务,CMGNet充分地利用了各种颗粒度级别的数据集,而且模型输入可以灵活调整,从而根据实际使用情况生成同时满足多个约束条件的化合物结构,在未知化合物的结构解析任务中具有良好的实用性。在使用CMGNet解析未知化合物的分子结构时,可以将其核磁碳谱数据输入到模型中,CMGNet便会生成该未知化合物的候选结构,生成排名越靠前,该结构是正确结构的可能性就越大;此外,如果该化合物的分子式或分子片段也是已知的先验信息,同样可以输入到CMGNet中,模型将会在碳谱数据、分子式和分子片段的共同约束下,生成符合条件的分子。
图 CMGNet的训练和推理流程
结果
在常规的结构解析场景中,除了核磁共振碳谱,往往还可以结合其他多种分析手段获取到分子的各类结构相关数据,例如结合高分辨质谱等可以获得化合物的分子式或部分结构片段。通过多种预训练任务的结合,CMGNet不仅能够根据未知化合物的13C NMR化学位移数据生成分子结构,还可以加上分子式和结构片段作为先验信息,此时Recovery@10能达到94.17%。也就是说,对于94.17%的化合物,都能在模型生成的前10名候选结构中找到对应的正确结构。值得注意的是,CMGNet在解析分子量大和结构复杂的分子结构上效果显著。表2列举的3个化合物分子量均在1000 Da以上,当以这些化合物的碳谱数据和分子式作为模型输入时,它们的正确结构均能出现在前10名生成结果中。
表2  CMGNet在解析复杂分子结构上的表现示例

CMGNet在天然产物的结构解析和结构纠错任务中具有广泛的应用潜力。图呈现了模型在9个类别的天然产物上的结构解析性能,其中绿色标记代表在前10名生成结果中有与目标分子完全相同或骨架相同的候选结构。可以看到CMGNet在生成多种天然产物上表现显著,尤其是二萜、三萜、黄酮和木脂素。
此外,分子式或结构片段的加入可以进一步提高CMGNet的结构解析能力。如图所示为一种生物碱类分子,模型基于碳谱生成的分子与目标结构的相似度为0.39,加入分子式后提高到0.42。在此基础上,将子结构输入时,相似度提高到0.65,当加入含有8元氮杂环的子结构后相似度提高到0.78。这证明了CMGNet充分理解了分子结构、分子式和碳谱之间的内在关系,因此能够在结构解析时充分利用这些先验信息,这也为通过深度学习算法解决多条件约束的分子生成问题提供了成功的实践。
图 CMGNet在结构解析上的表现
目前,CReSS系统和CMGNet均已在DurgFlow平台开放,可用于分子结构解析研究。
在线网址:https://drugflow.com/#/spectrum_ai?tab=submit_task
此外,2023年3月24日下午2点,来自浙江大学、北京大学、华东理工大学、四川大学、中南大学、中科院药物所、医科院药物所、广州国家实验室的学者,以及来自MNC、Biotech的产业专家共聚一堂,召开:

    人工智能驱动新药研发进展与挑战研讨会

会议形式:在线会议,虚拟直播,方便大家参会!快来扫描下方的二维码报名!

关于碳硅智慧 (www.carbonsilicon.ai)

碳硅智慧是一家聚焦于新药研发的科技公司,我们的定位是新药研发领域的人工智能基础设施和服务提供商。我们希望将最先进的生命科学技术与人工智能等信息科学技术深度融合,面向新药研发,利用深度生成(AIGC)、自监督预训练、强化学习等人工智能先进技术,并深度融合物理计算及软硬件自动化技术,通过提高新药研发领域生产数据、管理数据以及对数据进行AI建模的能力,将新药研发各环节数字化和智能化,形成干湿试验数据闭环,解决新药研发难题。

关于DrugFlow (www.drugflow.com)

DrugFlow是由碳硅智慧研发的AI驱动的一站式创新药发现平台,核心算法均具有自主知识产权,以SaaS或混合云方式提供给第三方客户使用。DrugFlow涵盖靶标发现,苗头化合物发现和先导化合物优化等环节,集成世界领先的靶标发现、活性预测、成药性预测、分子生成优化、虚拟筛选、AI建模等模块,帮助药化专家更高效便捷地找到潜在成药分子。DrugFlow努力打造覆盖药物研发完整流程的软件平台,基于自动化硬件产生的数据迭代模型,并将专家融合到流程中,最终形成数据驱动人机协同的统一设计平台,显著提高药物研发的确定性。

【声明】内容源于网络
0
0
DrugFlow
关注AI驱动的新药研发(AIDD)方向,提供有价值的科研资讯和服务。
内容 31
粉丝 0
DrugFlow 关注AI驱动的新药研发(AIDD)方向,提供有价值的科研资讯和服务。
总阅读4
粉丝0
内容31