大数跨境
0
0

Nature 子刊 | 俞汝勤院士-吴海龙教授团队最新研究!AI助力先导化合物高效探索与优化

Nature 子刊 | 俞汝勤院士-吴海龙教授团队最新研究!AI助力先导化合物高效探索与优化 TAG-HUB
2025-11-19
0
导读:想做自己的垂直领域大数据研究(电池、陶瓷、金属、医药、蛋白、环境、生态、材料、农学、地质等),可使用类似方式完成定制化数据集搜集搭建,TAG-HUB也可提供定制化科研数据集挖掘服务。

    t-SMILES: a fragment-based molecular representation framework for de novo ligand design

    t-SMILES:基于片段的分子表示框架用于从头配体设计

    📑 基本信息

    • 期刊
      : Nature Communications
    • 时间
      : 2024-06-04
    • DOI
      : https://doi.org/10.1038/s41467-024-49388-6
    • 作者
      : Juan-Ni Wu, Tong Wang, Yue Chen, Li-Juan Tang, Hai-Long Wu*, Ru-Qin Yu*
    • 机构
      : State Key Laboratory of Chemo/Biosensing and Chemometrics, College of Chemistry and Chemical Engineering, Hunan University

    🔍 导读

    该研究提出了一种名为t-SMILES的灵活、基于片段的多尺度分子表示框架,通过对分子图进行片段化并在完全二叉树上执行广度优先搜索生成SMILES类型字符串。系统评估显示该框架能够构建多编码分子描述系统,各种描述相互补充,显著提升整体性能,在目标导向任务中明显优于经典SMILES、DeepSMILES、SELFIES和基线模型。

    🧩 引言

    背景与意义

    分子表示是影响人工智能模型性能的关键因素。与自然语言处理和图像识别不同,分子发现面临的特定挑战是缺乏自然适用、完整且"原始"的分子表示方法。分子表示决定了保留化学信息的内容、性质和可解释性,如理化性质、药效团、官能团等,因此分子表示方式成为AI模型性能和可解释性的限制因素。


    图表解读:该图展示了t-SMILES算法的整体流程,从分子结构到片段化分解、构建无环分子树(AMT)、转换为完全二叉树(FBT),最终通过广度优先搜索生成t-SMILES字符串的完整过程,体现了该框架的多尺度分层表示特点。

    现有不足

    现有的SMILES表示法在生成化学无效字符串方面存在问题,特别是在小数据集训练时,主要原因是不平衡的括号和环标识符。DeepSMILES虽然解决了大部分语法错误,但仍允许语义不正确的字符串。SELFIES虽然保证每个字符串都对应有效的化学图,但其鲁棒性导致某些表示难以阅读。基于片段的方法依赖特定的子结构词典,存在词汇内外问题和高维稀疏表示的维数灾难。

    问题与动机

    如何将分子片段化并将分子子结构编码为字符串类型序列以生成新分子的方法尚未得到充分探索。受到Jean-Marie Lehn关于"原子是字母,分子是单词"类比的启发,以及语言模型在学习大型复杂分子方面可能优于图神经网络的研究发现,需要开发一种结合图模型拓扑结构关注和语言模型强大学习能力的新方法。

    目标与创新

    本研究提出t-SMILES框架,旨在描述基于片段化分子的SMILES类型字符串,可以将基于序列的模型作为主要生成模型。该框架引入三种编码算法:TSSA、TSDY和TSID,仅引入两个新符号"&"和"^"来编码多尺度和分层分子拓扑,能够构建多编码分子描述系统,其中经典SMILES可作为特殊情况整合。

    📊 方法

    数据来源与类型

    研究使用了多个公开数据集,包括ChEMBL、Zinc、QM9以及两个低资源数据集JNK3(923个活性分子)和AID1706(329个活性分子)。数据预处理包括分子标准化、去重和有效性检查。采用四种分子片段化算法:JTVAE、BRICS、MMPA和Scaffold来分解分子结构。


    图表解读:该图展示了不同t-SMILES编码和传统SMILES、SELFIES的token分布特征。t-SMILES中的"&^"符号频率很高但无需成对出现,而传统SMILES中成对括号"()"比例超过10%,显示了t-SMILES在减少配对符号依赖方面的优势。

    核心方法与技术

    t-SMILES算法包含三个核心步骤:首先使用选定的分子片段化算法将分子图分解为有效化学片段构建AMT;然后将AMT转换为FBT;最后使用广度优先搜索遍历FBT获得t-SMILES字符串。三种编码算法的区别在于:TSSA使用共享原子作为连接点,TSDY和TSID使用虚拟原子,其中TSID包含ID标识符。


    图表解读:该图展示了不同训练轮次下各种分子表示方法的新颖性和FCD分数变化。t-SMILES模型在200个训练轮次后仍保持较高的新颖性分数(约0.8),而SMILES、DSMILES和SELFIES模型的新颖性分数急剧下降至接近零,证明了t-SMILES在避免过拟合方面的优势。

    研究流程

    实验设计包括分布学习基准测试、目标导向任务评估和理化性质分析。使用MolGPT作为主要生成模型,采用有效性、唯一性、新颖性、KLD和FCD等指标评估性能。重建算法包括随机重建和目标导向重建两种策略,后者在目标导向任务中表现显著优于基线模型。

    📈 结果

    t-SMILES独特性质分析

    t-SMILES的token分布与传统SMILES完全不同,"&^"符号在TSSA编码中频率仅次于"C",但无需成对出现。嵌套深度分析显示,TSDY_M编码在ChEMBL上将0-1-2嵌套深度比例从68.006%提升至99.270%,同时将3-4-5嵌套深度从31.886%降至0.730%,6-11嵌套深度从0.108%降至0.00019%,根本性地减少了深度嵌套和必须成对出现的字符比例。


    图表解读:该图展示了ChEMBL和Zinc数据集上不同模型生成分子的SAScore分布情况。t-SMILES家族中的某些单一或混合模型在捕获理化性质方面与SMILES、DSMILES和SELFIES相当或更好,TSDY和TSID模型比TSSA模型更好地拟合训练数据。

    低资源数据集实验结果

    在JNK3数据集上的过拟合问题研究显示,SMILES、DSMILES和SELFIES模型在200个训练轮次后新颖性分数急剧下降至接近零,而t-SMILES模型的新颖性分数稳定在约0.8。在迁移学习场景中,当训练轮次从5增加到100时,t-SMILES模型的活性新颖性分数从0.710降至0.569,而SMILES模型从0.526急剧降至0.023。数据增强实验中,t-SMILES模型保持了高水平的活性新颖性分数(0.829和0.809)。


    图表解读:该图展示了T16.SMPO任务中不同训练轮次下各模型的目标导向性能。TSMG模型(TSDY_M with goal-directed reconstruction)获得了显著更高的分数,所有六个t-SMILES模型都明显优于基于SMILES的模型,证明了t-SMILES在目标导向任务中的优越性。

    ChEMBL大规模数据集性能

    在ChEMBL数据集的分布学习基准测试中,t-SMILES模型在新颖性和FCD分数方面均优于Graph MCTS、hgraph2graph和MGM等图基线模型。与片段基础组装算法FASMIFRA相比,所有TSDY和TSID模型在新颖性和FCD维度上都表现更优。TSID_B和TSID_S模型实现了0.909的FCD分数和0.941、0.933的新颖性分数,在两个维度上都超越了SMILES模型。

    💡 结论

    主要贡献

    1. 创新的分子表示框架:t-SMILES提供了一种灵活、可扩展的基于片段的分子表示方法,仅引入两个新符号"&"和"^"就能编码多尺度分层分子拓扑结构。该框架能够构建多编码分子描述系统,将经典SMILES作为特殊情况整合,各种描述相互补充提升整体性能。通过广度优先搜索替代深度优先搜索,根本性地减少了嵌套深度和配对字符比例,降低了序列模型的学习难度。

    2. 卓越的实验性能表现:系统性比较实验表明,t-SMILES模型能够实现100%的理论有效性并生成高度新颖的分子,显著优于现有SMILES基础模型。在低资源数据集上有效避免过拟合问题,无论使用标准模型、数据增强还是预训练微调模型,都能显著提升新颖性-FCD平衡性能。在目标导向任务中,配合目标导向重建算法的t-SMILES模型相比SMILES、DSMILES、SELFIES和最先进的CReM模型展现出显著优势。

    局限性与展望

    当前研究主要关注将片段化分子编码为序列,仅使用已发布的片段化算法作为示例创建"化学词汇"。未来研究可以利用t-SMILES探索更多片段化算法,更深入地解析化学句子和含义。虽然t-SMILES旨在改善分子描述性能并规避SMILES局限性,但本研究未在更复杂分子上进行实验验证。此外,大语言模型是否能够学习t-SMILES的树结构以及语言模型如何超越表面统计关联学习分子化学知识仍需深入探索。未来可进一步研究先进的分子重建和优化算法、改进的生成模型、进化技术,以及在性质预测、逆合成和反应预测任务中的应用。



    想做自己的垂直领域大数据研究(电池、陶瓷、金属、医药、蛋白、环境、生态、材料、农学、地质等),可使用类似方式完成定制化数据集搜集搭建,TAG-HUB也可提供定制化科研数据集挖掘服务



    【声明】内容源于网络
    0
    0
    TAG-HUB
    Tag-Hub是智能科研大数据的范式引领者,正以AI推动科研大数据平权,已积累2.5亿条文献信息和20万条专业术语库,支持文献数据溯源与AI验伪,希望与科研工作者共建科研智能新生态。
    内容 54
    粉丝 0
    TAG-HUB Tag-Hub是智能科研大数据的范式引领者,正以AI推动科研大数据平权,已积累2.5亿条文献信息和20万条专业术语库,支持文献数据溯源与AI验伪,希望与科研工作者共建科研智能新生态。
    总阅读2
    粉丝0
    内容54