齐鲁工大胡伟&顾少楠联手中科大江俊&罗毅JACS！深度学习实现分子结构与振动光谱的双向转换- 大数跨境

首页

齐鲁工大胡伟&顾少楠联手中科大江俊&罗毅JACS！深度学习实现分子结构与振动光谱的双向转换

科技写作沙龙

2025-07-26

导读：研究背景在化学、材料乃至生命科学领域，结构决定性质的范式亘古不变，而振动光谱（红外与拉曼）正是“看见”分子结

研究背景

在化学、材料乃至生命科学领域，结构决定性质的范式亘古不变，而振动光谱（红外与拉曼）正是“看见”分子结构的经典手段。然而，传统流程始终绕不开两道“坎”：其一，实验测得的光谱必须与数据库比对才能指认化合物，一旦遇到库中不存在的新分子便束手无策；其二，若采取“先猜结构→量子化学计算→比对光谱”的试错法，高昂的计算成本和深厚的化学直觉要求又令大多数研究者望而却步。近年来，机器学习虽被用于光谱模拟或库检索，但“从一条未知光谱直接反推出唯一结构”的逆向解析问题始终缺乏端到端的解决方案。这一背景构成了本文工作的出发点。

针对上述痛点，作者提出了一个极具想象力的“光谱–结构翻译”框架：用深度学习把光谱与SMILES这两种异质“语言”互译。其核心由两个模型协同完成：TranSpec负责“光谱→结构”，SpecGNN负责“结构→光谱”。TranSpec采用类Transformer编码-解码架构，光谱先经CNN或MLP编码为特征矩阵，再通过多头注意力逐 token 生成 SMILES；SpecGNN则利用图同构网络（GINEConv）从二维分子图直接预测实验级光谱，绕过昂贵的DFT计算。两者一正一反，形成闭环：TranSpec先给出候选结构，SpecGNN快速模拟其光谱并依据相似度重排序，从而大幅提升最终命中率。

研究亮点

为了跨越理论与实验光谱之间的鸿沟，作者设计了一套“组合拳”式训练策略：
（1）数据层面，构建含13万分子的QM9S理论数据集，并补充含Cl、Br、S的QM14S，再与NIST实验光谱混合，实现多源学习与迁移学习；
（2）增强层面，对光谱做量化、缩放、平移等扰动，模拟仪器误差与测量条件差异；
（3）模型层面，融合CNN与MLP两个骨干、四个训练变体及16路候选投票，显著提高鲁棒性；
（4）后处理层面，引入分子质量过滤与SpecGNN光谱重排序，进一步筛除不合理候选。这套流程使模型在实验数据上的Top-1准确率从最初不足10%跃升至53.6%，为领域内迄今最佳水平。

实验结果充分验证了框架的有效性。在理论数据集QM9S上，TranSpec结合IR+Raman输入与模型融合后，Top-1与Top-10准确率分别达到87.6%和99.3%，几乎逼近理论极限；在NIST实验红外光谱上，经迁移学习、数据增强、重排序与质量过滤后，Top-1准确率达到53.6%，Top-10则升至68.5%，显著优于直接训练或单一策略。更重要的是，作者展示了模型在“精细化学”任务中的潜能：对12类常见官能团的识别准确率普遍超过90%，并能借助光谱微小差异区分同分异构体与同源物，为结构解析提供了可解释线索。

研究总结

综合来看，该工作首次实现了“光谱-结构”真正意义上的双向、端到端翻译，突破了传统光谱解析依赖专家经验和昂贵计算的瓶颈。TranSpec与SpecGNN的协同不仅具备高准确率与计算效率，还展现出良好的可扩展性：未来通过扩展实验光谱库、引入偶极矩/极化率等额外分子特征，甚至与质谱、核磁等多模态数据融合，有望将这一框架推广至药物先导物发现、星际分子识别、代谢组学结构注释等更广泛的场景。正如作者所言，这项工作“为光谱学与化学信息学之间架起了一座AI驱动的桥梁”，其方法论也为其他“序列-结构”映射的科学问题提供了范式参考。

【声明】内容源于网络

科技写作沙龙

学术交流；国自然基金及各类项目申请书撰写技巧；高分SCI论文写作技巧，科研绘图，模拟计算，论文资讯快递；报奖写作技巧；专家推荐；技术推荐；科技产品设备服务；考研调剂，升学咨询，就业信息与规划；科研产业服务一条龙。

内容 482

粉丝 0

科技写作沙龙学术交流；国自然基金及各类项目申请书撰写技巧；高分SCI论文写作技巧，科研绘图，模拟计算，论文资讯快递；报奖写作技巧；专家推荐；技术推荐；科技产品设备服务；考研调剂，升学咨询，就业信息与规划；科研产业服务一条龙。

总阅读1.1k

粉丝0

内容482