10+：将机器学习用到实验中- 大数跨境

中科生信

2021-11-25

导读：早！本次小编分享一篇2020年11月18发表于Cell Syst的文献，题目为《Leveragin

早！本次小编分享一篇2020年11月18发表于Cell Syst的文献，题目为《Leveraging Uncertainty in Machine Learning Accelerates Biological Discovery and Design》，影响因子10.304。该文献介绍了(1)机器学习的不确定性指导实验设计和验证循环、(2)高斯算法实现不确定性预测、(3)纳米摩尔激酶活性和Mtb生长抑制剂的发现与验证。

摘要

产生生物假设的机器学习具有变革的潜力，但大多数学习算法在探索训练数据分布之外的规律时容易出现失败。解决这个问题的一个方案是量化预测不确定性，以便算法可以成功地处理混淆标准方法的新现象。在这里，我们展示了稳健不确定性预测在生物发现中的广泛效用。通过利用基于高斯算法的不确定性预测，对72种化合物训练模型，从而对10833种化合物库进行预测，鉴定并实验验证具有纳米摩尔亲和力的化合物对各种激酶和结核分枝杆菌的全细胞生长抑制。不确定性促进了计算和实验之间的紧密迭代循环，并推动了蛋白质工程和单细胞转录组学等多种生物学领域。更广泛地说，我们的工作表明，不确定性预测应该在越来越多的“从机器学习算法到实验”的周期中发挥关键作用。

介绍

随着高通量测定继续改变生物学，这些研究的最终目标保持不变——产生阐明生物系统重要特征的假设。不断增长的实验数据量强调了“强大、系统的策略来探索这些结果并确定产生理想生物学结果的实验条件”的重要性。

机器学习算法提供了一种将现有数据转换为可操作的生物学假设。然而，虽然假设的生成通常依赖于人类专家对给定假设的直觉的确定性或不确定性，但这种直觉不会自动内置到机器学习算法中，这使得这些算法容易受到过度自信的预测的影响，尤其是当训练数据有限时。当一种智能算法可以用于量化预测不确定性时，可以帮助将实验工作集中在成功可能性很高的假设上，当新数据采集缓慢或艰巨时，这种智能算法尤其有用。

虽然不确定性逐渐被认为是机器学习算法中的关键属性，在生物学环境中，许多机器学习研究不考虑不确定性，或者仅限于特定任务或计算机验证。在这里，我们全面展示了不确定性学习的好处，并强调了一种通用的、实用的方法。我们的关键方法学发现之一是，一类基于高斯过程(GP)的算法，在丰富的特征上训练，提供了对不确定性的有用量化，同时即使使用有限的训练数据，也可以实现实质性的生物学发现。

为了说明我们方法的普遍性，我们将相同的框架应用于两个不同的任务：蛋白质工程和基因表达值插补。首先，我们表明不确定性可以改善Aequorea Victoria绿色荧光蛋白(avGFP)；我们仅使用少量的训练数据，利用不确定性根据预测的荧光将组合突变体优先排序为avGFP，揭示了保存甚至增强荧光的重要结构元素。为了进一步证明普遍性，我们应用不确定性来插补多维转录组学表型，这是一项与许多功能基因组学问题相关的任务。我们使用不确定性来预测CRISPR扰动单细胞的分化模式，并突出显示细胞谱系中不同状态下的保守基因共表达模块。

不确定性预测实现稳健的机器引导发现：理论和概念性用例

考虑到研究人员有兴趣找到抑制激酶的小分子环境，这是一个具有生化和药理学重要性的问题。当研究人员考虑研究新的抑制剂时，这种抑制剂的某些化学结构在理论上应该与之前研究过的结构相似，因此也可能具有类似的行为，但是仍然存在具有不确定的化学结构空间。虽然生化"相似性"或"不确定性"的概念对人类专家来说可能是显而易见的，但标准的机器学习算法没有相应的不确定性概念，可能导致有偏见、过度自信或病态预测(图1A)。

另外两个概念也有助于提高生物发现的不确定性预测的实用性和性能。第一，"样品效率"(图1B)，是适应少量新数据的能力。第二个概念是"预训练"(图1C)，预训练以与任务无关或无监督的方式自动提取有意义的一般特征。预训练的特征随后可以提高更具体的下游任务中不确定性预测的性能。

图1.机器引导发现的不确定性预测

不确定性预测实现稳健的机器引导发现：在化合物激酶亲和预测中的应用

作为机器引导发现的测试案例，我们决定最初专注于预测小分子化合物和蛋白激酶之间的结合亲和力。我们之所以选择这种特殊的应用，是因为激酶具有多种药理学意义，包括癌症和传染病治疗并且存在有限数量的化合物。

我们的主要基准测试方法集通过最先进的基于神经图的化合物特征利用无监督预训练和基于神经语言模型的蛋白质序列特征(STAR方法)。后续回归模型使用这些特征的串联来预测Kd绑定亲缘关系(图2A)。

基于预测亲和力的化合物-激酶相互作用的优先级划分

然后，我们试图对以前未知的化合物-激酶相互作用进行机器学习引导的生物学发现。我们使用72种化合物和442种激酶作为模型训练数据。

首先我们想测试直觉。为此，我们可视化了训练集中的72种化合物和使用t-SNE的10833个未知亲和化合物的基于结构的复合特征空间。嵌入显示了化合物景观的大面积区域，这些区域远离任何具有已知亲和力的化合物(图2E)。

与直觉一致，仅在72种化合物上训练的GP分配的不确定性分数在具有已知亲和力的化合物附近的区域较低(图2F)，不确定性分数与测试化合物与其训练集中欧几里得最近邻的距离之间存在高度相关性。GP优先考虑低不确定性条件下的化合物，这些化合物也具有高预测的结合亲和力(图2G)。相比之下，MLP将高优先级分配给许多远离已知训练实例的化合物(图2H)。为了进行比较，CMF似乎无法从少量的训练化合物中学习可推广的模式(图2I)。

图2.化合物激酶亲和力的计算预测

不确定性预测发现亚纳摩尔化合物激酶的生物化学活性

然后，我们进行了机器引导的化合物-激酶相互作用的发现。由于我们的体外结合测定经过优化，可以筛选给定激酶的许多化合物，因此我们将验证工作集中在一组四种不同的激酶上：IRAK4；c-SRC(hsa)；p110δ(hsa)；Mtb PknB。

我们观察到MLP获得的预测中没有一个Kd小于顶部测试的浓度10μM(图3)，与导致病理模型偏倚的分布外预测一致。相比之下，GP产生了18个Kds小于10μM的化合物激酶对，其中10个低于100 nM(图3)。

为了进一步评估不确定性对预测质量的影响，我们还使用另一个基于GP的模型(MLP + GP)进行了PknB采集，并改变了对不确定性β权重(STAR方法)。我们验证了GP和MLP + GP的前五个预测。在β= 20时，MLP + GP获得了与GP相似效力的化合物集。容忍更多的不确定性或完全忽略它将会导致更多的假阳性预测(图3B)。

图3.不确定性使采集有效的化合物-激酶相互作用成为可能

经验证具有PknB生物化学活性的化合物的抗结核活性

鉴于我们的模型发现的强效相互作用，我们试图进一步评估这些化合物是否具有比蛋白质分子本身的生化亲和力更广泛的相关性。PknB是一种激酶，对Mtb的生存能力至关重要。细菌激酶的研究不如人类激酶，但仍然是重要的治疗靶点。鉴于PknB的重要性和我们对PknB结合化合物的硅质鉴定，我们试图检查与PknB具有高结合亲和力的化合物是否会对分枝杆菌生长产生任何影响。

我们专注于Kd小于100 nM的化合物：K252a(Kd = 11 nM)，TG101209(Kd = 71 nM)和SU11652(Kd = 76 nM)。结果见图4A。SU11652是一种有据可查的人受体酪氨酸激酶抑制剂，包括PDGFR、VEGFR和Kit。TG101209没有抑制H37Rv的生长(图4A)，可能是由于细胞通透性低。

图4.后续PknB实验揭示了抗Mtb全细胞活性和分布外抑制剂

不确定性主动学习揭示了结构上的远程化合物与生物化学活性与PknB

后续分析也可以采取额外的预测轮次的形式，这些预测轮次结合了先前实验的结果，在这种环境中，样品效率至关重要。这种涉及预测、采集、模型再训练以及随后的预测和采集的迭代循环称为"主动学习"。我们在原始数据集和第一轮体外亲和力实验的结果上进行训练后，进行了第二轮PknB结合亲和力预测(图3B)。我们在这些数据上训练了GP和MLP模型，并再次获得了每个模型做出的前五个预测(STAR方法)。

不确定性预测改进了复合结构的生成式设计

我们稳健的预测模型还可以帮助我们设计对PknB具有高亲和力的新化合物结构。特别是，我们对生成式设计范式感兴趣，其中生成器算法负责生成对象，而评估器算法优先考虑最能满足所需属性的对象。

基于GP的方法优先处理的分子在所有评分函数中具有明显高于MLP基线的亲和力，基于GP的方法与用作阳性对照的已知高亲和力化合物的对接分数之间没有显着差异(图5A)。通过对照GP预测的最佳设计的目视检查揭示了类似于已知抑制剂的结构(图5B)，而MLP优先的一些结构看起来是病理性的(图5C)。对于具有强结合亲和力的化合物，可视化对接算法建议的结合姿势显示与已知的晶体学确定的小分子姿势(PDB：2FUM)(图5D)。这些结果表明，在分布外环境中基于不确定性的鲁棒性如何更好地指导新化学结构的生成设计。