矩阵分解算法- 大数跨境

中科生信

2021-09-16

导读：本次小编分享一篇于2020年9月11日发表于Nat Commun的文章，题目为《Predicting the

本次小编分享一篇于2020年9月11日发表于Nat Commun的文章，题目为《Predicting the frequencies of drug side effects》，影响因子14.913。本文讨论了药物风险-效益评估的一个核心问题——确定药物副作用频率。目前，频率是在随机对照临床试验中通过实验确定的。本文提出了一个机器学习框架来预测药物副作用的频率——矩阵分解算法，该算法可以学习药物和副作用的潜在特征。作者表明，该模型提供了药物活性背后的生物学信息：药物特征的单个成分与药物的不同类别和特定的给药途径有关。

介绍

副作用频率的估计对药物风险和益处的评估至关重要。然而，众所周知，许多副作用并没有在临床试验中观察到，而是在药物上市后才被发现。因此，药物副作用仍然是医疗保健领域发病率和死亡率的主要原因，每年造成数十亿美元8-10美元的损失。目前已经提出几种计算方法用于预测给定药物的副作用。然而，这些方法在药物风险效益评估中的应用是有限的，因为它们只能预测药物副作用的存在或不存在，而不能预测其发生的频率。而副作用发生频率的准确评估对临床实践、病人护理、制药公司都是至关重要的。

在这里，我们提出了一种机器学习方法来预测药物副作用的频率。我们展示了我们的方法对来自多种治疗类别和属于所有生理系统的副作用的有用性。基于少量的实验确定的副作用，我们的方法预测了更广泛的未知副作用的频率。据我们所知，这是第一个成功解决预测药物副作用频率问题的计算方法。我们方法的一个关键应用是在临床试验的早期阶段，在这个阶段，计算预测可以作为补充假设，设定临床试验后期风险评估的方向。我们预测药物副作用频率的方法是使用矩阵分解算法来学习一小部分潜在特征，这些特征编码了药物和副作用之间的生物相互作用。重要的是，我们限制了矩阵分解为非负，这样做有很大的好处：药物具有一系列习得的非负性特征，当这些特征相加时，就可以解释整个药物库的副作用频率，因此，个体特征可以解释为药物对特定的人体生理系统的影响。在这里，我们还表明这些特征与不同的给药途径有关，因为捕获了它们共同的药物临床活性、药物靶点和副作用表型。

结果

1.矩阵分解模型：

我们使用Side effect Resource 4.1(SIDER)数据库来获取药物副作用的频率，并使用代码对药物进行分析。结果表明临床试验的频率偏向频繁的副作用。这归因于临床试验在检测罕见病副作用方面的局限性。事实上，我们对R的分析显示，药物副作用遵循长尾分布，其中约30%的副作用提供了80%的关联作用(图1a)。图1b显示了频率类别在R中的分布是零膨胀的，这意味着大约95%的关联是无法观察到的。

图1

图2显示了我们预测药物副作用频率方法的概述。起点是矩阵R，其中包含每种药物副作用频率类别的编码(图2a)。使用了一个简单乘法更新规则的迭代算法(图2b)。我们的算法灵感来自非负矩阵的对角新原理，它不需要设置学习速率和应用投影函数，且满足Karush-Kuhn-Tucker(KKT)互补收敛条件。

图2

预测多种药物的副作用频率：

首先，我们分析了我们的方法在恢复矩阵R中缺失的关联分析。为此，我们保留了数据矩阵R中观察到的10%的关联进行测试，剩下的90%用于十倍交叉验证，分别对应我们算法的两个参数：k(潜在特征的数量)和α(对零的置信度)。在交叉验证中, 我们使用RMSE和AUROC下的区域(二进制分类问题)来评估预测性能。第一个指标测量与正确频率类值的距离，而第二个指标则保证检测正确的关联。在α=0.05和k=10时，获得了良好的性能。鉴于我们的数据集是高度不平衡，我们也使用precision-recall曲线下的面积(AUPRC)分析了二进制分类性能。我们计算了测试集中二进制类之间的比率从1到10时的AUPRC，结果是AUPRC的平均值在0.914±0.003到0.594±0.0084之间变化。

在保留的测试集上，我们的模型RMSE得分为1.32，AUROC得分为0.932(当类别不平衡比率为10时，AUPRC为0.59)。图3表明，5个频率类别的得分分布差异均有统计学意义(Kruskal-Wallis单向方差显著性分析，比例为1%，P < 1.15 × 10−193)。

图3

为了预测给定关联的特定频率类别，我们需要一种方法将预测分数分配到频率类别。由于不完整的数据和观测条目的偏差，我们不能对每个类的先验得到合理的估计。因此，我们根据在交叉验证过程中从验证集获得的分布的最大似然将分数分配给scores (图2c)。此外，存在一个缺陷：缺乏实验验证的零值；因此为了区分零值的关联，我们遵循了类似Cami等人使用的方法，并绘制了ROC曲线，敏感性为0.97，特异性为0.57。

我们还测试了我们方法的准确性，发现当从矩阵R中随机剔除越来越多的数据时，我们方法的平均准确性越稳健。

我们进一步测试了系统在预测药物进入市场后发现副作用频率方面的表现。这相当于一个预期的评估，即上市后数据只出现在测试集中——这是一个真实的场景。我们收集了两个独立的上市后测试集：(i) SIDER；(ii) OFFSIDES。可以说，SIDER数据库提供的关联更可靠，因为它们是由药理学专家策划的。重要的是，这两种产品上市后都只告知我们是否存在副作用，而不是其出现的频率。然而，上市后副作用通常被认为是在人群中非常罕见的副作用，因为它们在临床试验中未被发现。

预测单一药物的副作用频率：

我们的方法在适用性上的一个关键问题是它预测单一药物副作用频率的能力。在实践中，对于一种特定的药物，在临床试验的第一、第二和第三阶段中，副作用的频率按照特定的时间顺序递增。我们意识到，可以通过随机移除(并向后预测)单个药物相关性的增加百分比来模拟这个渐进发现过程。图4a显示了预测类的平均准确性，以及预测类或相邻类的准确性。从图中可以看出，即使某一特定药物的关联缺失百分比很高，我们方法的准确性也很可靠——当每种药物关联缺失50%时，平均准确率仅下降4.69%。当从每种药物中去除10%的关联时，结果与之前通过从整个矩阵R中随机去除10%的关联得到的结果(图3b)并没有太大的不同。

图4

在临床试验中，通常在临床试验的早期阶段首先发现较频繁的副作用，而较罕见的副作用则在后期阶段发现。我们进行了一个更真实的模拟，将时间顺序考虑在内，对于每种药物，删除了属于多类别的副作用。结果表明，我们的方法在使用早期临床试验数据预测副作用频率方面具有潜在的实用性。

为了在真实案例研究中进一步证明这一概念，我们使用了γ分泌酶抑制剂Semagacestat的临床试验结果，这是唯一一种在每个临床试验阶段都出现的具有详细信息的药物。结果表明，我们的方法在临床试验第一阶段结果出来后，就能显示出许多副作用。

最后，检查了药物之间的化学相似性是否在某种程度上影响了我们对方法准确性的评价。为了做到这一点，我们测量了方法对化学相似性范围不同的药物的性能。结果显示，我们的方法性能非常健壮地区分出了出现在训练数据集地化学类似药物。

讨论

正确识别药物副作用的频率对于避免临床试验失败或药物撤出市场至关重要。在本文中，我们介绍了一种可解释的机器学习方法，以预测未知副作用的频率药物与少量确定的副作用频率。

据我们所知，这是第一种可以预测人群中药物副作用频率的方法。早期的方法可以预测给定药物副作用关联的概率，但这些概率只是微弱的与副作用频率相关，因此不能有效地用于频率类别的预测——我们用预测性药物安全网络获得的评分验证了这一点。

我们的矩阵分解算法的一个创新技术方面是，它可以考虑与数据相关的不同级别的不确定性。我们模型的基本假设是，矩阵是完全的，而不是部分的。在我们的问题中，对应于未观察到的药物副作用关联，赋值为零。早期的矩阵分解方法，如奇异值分解或非负矩阵分解，不能明确地解释数据中不同程度的不确定性。我们的乘法学习规则简单，计算效率高，并具有收敛性的理论保证。

药物活性的表征在网络药理学的背景下是有意义的：观察到的药物副作用模式可以用不同器官系统网络的干扰组合来解释。图5显示了与解剖相关的药物组和与生理相关的副作用具有显著激活的signature components。signature的特定组件与特定的解剖类密切相关。这些关系可能有助于研究人员制定有关药物、副作用、分子机制和人体解剖系统的生物学假设。这些特征也可以用于其他药理学研究，如药物组合产生副作用的频率研究。

为了在实践中使用，我们的方法要求每种药物或化合物有少量可用的副作用。这通常是在临床药物开发期间或药物已经进入市场后。将我们的方法扩展到直接预测化合物特征(例如化学结构)的副作用频率是很重要的。这一方法已经被用于预测药物副作用的存在与否。