作者|李安亿 中国人民大学博士生
引言
电解质体系离子电导率的精准预测,对于推动众多科技应用的发展至关重要。尽管相关研究已取得显著进展,但当前领域仍面临两大核心挑战:(1)缺乏高质量的标准化基准数据集;(2)混合体系中分子几何结构与分子间相互作用的建模不够充分。为解决这些局限,作者首先对CALiSol和DiffMix电解质数据集进行了整理与扩充,融入了分子的几何图表示。随后,提出了一种新型几何感知框架GeoMix,该框架能够保持Set-SE(3)等变性——这是混合体系建模中一项关键但极具挑战性的性质。GeoMix的核心是几何交互网络(GIN),这是一个专为分子间几何消息传递设计的等变模块。大量实验表明,在两个数据集上,GeoMix均持续优于各类基线模型(包括多层感知机、图神经网络及几何图神经网络),验证了分子间交叉几何相互作用与等变消息传递对精准性质预测的重要性。该研究不仅为电解质领域建立了新的基准数据集,还提供了一个通用的几何学习框架,有望推动能源材料、药物研发等多个领域中混合体系的建模进展。
本文为文章作者的观点/研究数据,仅供参考,不代表本账号的观点和研究内容。
论文地址:https://arxiv.org/pdf/2510.15403
代码链接:https://github.com/GLAD-RUC/GeoMix
尽管标题聚焦于电解质电导率预测,但该模型实则可广泛应用于各类混合物体系(即溶液体系)的性质预测任务。溶液体系的性质预测是相关领域的核心任务,传统方法主要分为两类:
1. 基于第一性原理的计算方法:需先为溶剂中的关键分子建立溶剂化模型,包括显式溶剂化模型(考虑分子周围其他分子)和隐式溶剂化模型(将周围环境视作平均场)。通过推导溶剂的粘度、密度等关键信息,进一步获取离子扩散系数,最终得到电导率等关键的动态性质,但该方法计算链冗长,累计误差较大。
2. 基于分子动力学的模拟方法:涵盖从头算分子动力学(AIMD)和机器学习原子间势(MLIP)加速的分子动力学。此类方法需将大量分子(上百至上千个原子)置于边长约10Å(纳米级)的模拟盒中,还原宏观溶液的比例性质。以LiPF6-PC-EMC锂离子电池电解液体系模拟为例,其优势在于模拟精度较高,但存在计算复杂度高、模拟具有离散性的缺陷——有限的分子数量无法还原连续的比例变化,难以完全贴合客观真实情况。
两类传统方法均存在计算成本高、预测效果受限的问题,而机器学习技术的发展为解决这一困境提供了新的思路,本研究的模型正是基于此展开创新。
采用机器学习进行混合物体系性质预测的核心在于体系表示方式的设计,目前主流的三种表示方式如下:
1. 将混合物体系表示为不同组分及基于文本的SMILES式的组合。通过预训练模型得到每个分子的嵌入向量,结合分子在溶液中的比例信息,形成整体混合物体系的嵌入。该方式直观易懂,但不具备置换不变性,分子顺序置换后体系表示会发生变化,与混合物体系的微观均一性质不符。
2. 在第一种方式基础上进行两项改进。一是将基于SMILES式的分子嵌入,替换为基于拓扑图的嵌入,保留分子拓扑信息;二是采用置换不变的Deep Sets框架,使分子处于等价地位并聚合,确保分子输入顺序不影响体系表示,符合混合物微观特性。
3. 采用几何图替代拓扑图进行分子表示,既包含二维拓扑信息,又融入三维空间构象信息,能够捕捉分子间的几何关系及交互可能性。但该方式存在明显缺陷,不同分子间的交互信息会被凝聚为不变量标量,无法实现分子间几何关系的相互传递,限制了跨分子的微观几何结构表示。
为解决现有表示方式的不足,本研究首先提炼出混合物体系表示的基本对称约束,为模型设计提供理论基础:
1.节点级对称约束:针对单个分子,一方面满足置换等变性——分子中不同原子位置交换时,输出特征同步交换;另一方面满足SE(3)等变性——分子发生旋转时,输出的几何信息也相应旋转。
2. 图级对称约束:不同分子间满足置换等变性。分子输入顺序交换后,溶液体系的均一性和宏观性质保持不变,反映在模型中即输出会发生相应的行位置调整,确保体系表示的一致性。
本模型的核心框架分为四个关键部分,各环节紧密衔接以实现高效预测:
1. 混合物体系表示
输入包含两部分核心信息:一是混合物体系中包含的各类分子的几何图表示;二是每种分子对应的组分比例信息,为后续计算提供基础数据支撑。
2. 原子级嵌入
这是模型设计的核心环节。首先,每个分子的不变特征Hₘ和坐标信息Xₘ被输入等变图神经网络进行预处理,得到处理后的不变特征和坐标矢量特征。由于不同分子初始处于独立坐标系,基于各分子坐标通过主成分分析(PCA)构建独立坐标系Fₘ,并引入初始值为零的冗余输入V₀,用于输出额外几何特征。预处理完成后,进入几何交互神经网络进行关键计算。
3. 几何交互与图级读出
几何交互神经网络的核心思路是将不同坐标系下的分子统一到同一坐标系,实现分子间几何级信息的有效传递,模拟溶剂化结构。通过学习可优化的旋转矩阵R和平移向量t,将分子变换至同一坐标系,建立分子间几何关系交互。随后,采用自注意力机制,让不同分子的标量信息充分交互传递,再通过加权平均聚合得到混合物体系的最终表示。
4. 优化目标
基于混合物体系表示,通过MLP层输出最终的性质预测结果。模型引入节点去噪损失(Noisy Node Loss),辅助编码器更好地学习分子特征,提升体系表示的准确性,优化目标函数采用均方误差(MSE Loss)。
其中几何交互网络基于标量化等变神经网络思想设计,实现流程为分子间变换→消息构建→聚合与更新,具体如下:
分子间变换:计算两个分子间每条连边的不变信息(含标量特征H和原子到原点的距离|X|),结合坐标系构建坐标转移矩阵Iᵢⱼ,通过神经网络学习对应的旋转变换和平移变换,建立分子间一对一的几何关系映射。
消息构建:基于分子间的不变消息,经MLP层得到不变消息特征;结合坐标信息和预处理后的矢量信息,采用类似EGNN的方式构建几何消息特征。
聚合与更新:通过基于消息传递框架(MPNN)的聚合方式整合不变消息特征和几何消息特征,完成模型参数更新。
数据集介绍
研究在两类不同来源的数据集上整理并补充分子构象数据,构建了有效基准,为模型训练和验证提供高质量数据支持,确保实验的全面性和可靠性:
1. CALiSol数据集:基于实验测量的离子电导率数据集,包含13,269条记录,涵盖13种锂盐、38种溶剂,涉及13种化学元素,数据信息丰富,电导率分布范围广泛。
2. DiffMix数据集:基于化学软件计算的模拟数据集,包含24,822条记录,涵盖6种溶剂、2种盐,涉及8种化学元素,虽物质种类较少,但数据点分布均匀且覆盖范围广。
两类数据集的t-SNE可视化结果和电导率分布情况,清晰呈现了数据的特征,为模型性能验证提供了坚实基础。
实验结果与分析
1. 基准模型对比
实验选取多种主流模型作为基准,包括基于直接拼接的MLP、基于文本表示的MM-MoLFormer、基于拓扑图的MolSets-Conv、MolSets-SAGE,以及基于等变图神经网络的EGNN-att、EGNN-linear、TFN-att、TFN-linear(含线性加权和自注意力两种聚合方式)。结果显示,本研究提出的GeoMix-EGNN和GeoMix-TFN模型在CALiSol和DiffMix两个数据集上均表现最优,MSE值显著降低,Pearson相关系数大幅提升,其中GeoMix-TFN在DiffMix数据集上的MSE低至0.035,Pearson相关系数高达0.997。
2. 泛化能力测试
电导率分布泛化:采用较低电导率数据进行训练和验证,较高电导率数据进行测试,模拟材料发现中“从已知差性质材料挖掘优质材料”的场景。实验表明,本模型的预测性能显著优于其他基准模型,为高性能材料筛选提供了有力支持。
跨温度泛化:采用较低温度数据训练和验证,较高温度数据测试,验证模型对温度-性质关系的学习与外推能力。结果显示,本模型在跨温度泛化任务中表现最优,表明模型能够有效捕获材料性质随温度变化的关系。
3. 消融实验
我们针对模型的关键设计模块开展消融实验,包括组分嵌入方式、变换矩阵形式、聚合方式(按组分比例加权vs自注意力)、去噪损失(Noisy Nodes Loss)等。实验结果表明,本模型的各项设计均能有效提升预测性能,其中完整模型的表现最优,验证了各模块的必要性和合理性。
|往期内容回看


