IF80+图像分析方法重磅综述- 大数跨境

中科生信

2021-11-04

导读：今天小编分享一篇综述《Image-based profiling for drug discovery-du

今天小编分享一篇综述《Image-based profiling for drug discovery-due for a machine: learning upgrade?》，发表于2021年2月，在Nat Rev Drug Discov期刊上发表，影响因子84.694。在这篇综述中，简要介绍了基于图像的分析方法，然后讨论了该技术在各种药物应用中的现状和局限性。我们完全可以期待基于图像分析领域的进步——无论是在计算方面还是在生物方面——随着这种方法被广泛关注，在未来5年内它将迅速发展。

摘要

基于图像的特征分析是一种成熟的策略，它将生物图像中的丰富信息简化为多维特征，即提取的基于图像的特征集合。这些谱图可以被挖掘出相关的模式，揭示出意想不到的生物活性，这对药物发现非常有用。这些应用包括识别疾病相关的筛选表型，了解疾病机制和预测药物的活性、毒性或作用机制。其中一些应用最近已经得到验证，并已进入学术界和制药行业的生产模式；另一些方法在实践中的结果令人失望，但由于改进了的机器学习策略，更好地利用了基于图像的信息，它们现在重新引起了人们的兴趣。尽管挑战仍然存在，但新的计算技术，如深度学习和单细胞方法，可以更好地捕捉图像中的生物信息，为加速药物发现带来希望。

介绍

在药物开发项目中，对所有候选化合物在人类甚至啮齿动物体内的有效性和安全性进行评估，在伦理和实践上都是不可行的。因此，在筛选过程中，使用更简单的模型系统(细胞、组织和小型模型生物)来将临床疗效和安全性映射到可筛选的分子靶点、途径或表型。筛选试验的设计一方面要兼顾实用性和可负担性，允许对化学空间的广泛探索，另一方面，也要考虑到正在研究的疾病的生物学相关性或可能的安全问题。因此，筛选分析的输出或读出通常被选择为一个或几个易于解释的特征，这些特征反映了已经被理解的与有效性或安全性相关的生物学特性。多个这样的分析被用来测试成千上万的小分子，以识别和分类命中(即有吸引力的分子起点)。这些分析也被用来推进对更多类药物先导物的打击，并最终在临床前开发前优化先导物。

Profiling是筛选的另一种策略。“profiling”一词有两个意思：用一个profile(即特征的集合)来表示一个样本；根据这种表述对一个样本进行预测。profiling的目的是捕捉各种各样的特征，其中很少或没有以前可能验证过的与疾病或潜在治疗的相关性。因此，它可能揭示了意想不到的生物学作用。profiling通常依赖于与筛选试验相同或相似的模型系统(例如，荧光染色细胞)，但profiling用一组更全面的特征来代表这些模型系统。

可以使用多种分析类型以多种方式构建特征配置文件。Readouts可以从单独的分析面板产生；工业上广泛使用的例子包括跨细胞系面板的细胞活力，跨激酶面板的酶活性和与安全相关靶标面板的结合。通过将几种高维读出技术中的一种与基于细胞的模型系统相结合，可以在单一的多路分析中获得更经济有效的谱图。

到目前为止，使用自动显微镜进行基于图像的分析是这些高维分析技术中最便宜的，而且它固有地提供了单细胞分辨率，可以捕获重要的异质细胞行为。计算机视觉技术在过去的几年里取得了巨大的进步，能够从图像中提取大量无偏的形态信息。基于细胞的显微镜分析也取得了进步，如细胞涂布等分析方法将多种染色方法廉价地结合在一起，形成了由数千种特征组成的单细胞图谱。少数报道的比较分析表明，基于图像的分析可能比高通量转录分析捕获更多的生物信息。

基于图像的分析也经常应用于筛选的下游，从基于靶标、基于通路或表型筛选和验证中发现的target。然后，它作为一个无偏的二次分析，适用于任何屏幕和任何紊乱的命中。至少，分析可以将攻击组织成具有生物学相似效果的群体。充其量，它能提示化合物的作用机制(MOA)和先前未被怀疑的脱靶活性。然而，从表型特征中获得这些可操作的见解需要相当大的解释努力。对于传统的分析方法，这个解释步骤过于繁琐，无法扩展到筛选完整的库。

基于图像的分析：

基于图像的分析不需要专门的设备或试剂。所需要的只是代表不同病例(例如，人类患者类别)或治疗条件(例如，化学、遗传、时间点或生物系统的其他干扰)的生物样本图像(图1)。

图1.基于图像的分析。a：概述从生物样本生成基于图像的概要文件的工作流中的典型步骤。b：细胞涂布试验的示例图像常用于基于图像的分析。它包括六种标记八个细胞成分的染色剂，在五个通道中成像。

首先，制备生物样品。虽然活细胞微阵列和聚合成像策略是更高通量的选择，但通常采用阵列式多孔板格式。接下来，将样品置于感兴趣的处理条件下并进行培养。这些样本通常在固定和染色后进行成像，但人们可以进行实时、延时成像和/或使用无标记技术，如使用机器学习从亮场图像预测染色模式的技术。

对图像进行处理以提取特征，并将其聚合成概要文件。这一步骤的方法正在迅速发展，特别是从专家定义的特征提取到数据驱动的深度学习。最后，对提取的概要文件进行分析，以确定计算工作流的部分具有生物学意义的相似性和差异性，这些相似性和差异性取决于所选择的应用程序。

实际上，任何一组图像都可以用于基于图像的分析。上述工作流程需要根据所使用的样本、扰动、染色和成像方式进行调整，但总体策略是相同的。也就是说，如果每张图像包含大量实例(例如，细胞或有机体)和关于每个实例的大量可见信息(例如，多个相应染色的高分辨率图像)，则分析将是最有力的。

增加表型空间的辨别能力：

各种计算策略可以改进基于图像的分析结果，这里展示的是识别一组化合物的作用机制(MOAs)的理论例子。每个测试样本都在表型空间中表示为一个点，点之间的距离反映了处理过化合物的细胞图像的相似性。即使采用了最好的策略，许多MOA类也不容易被检测或区分。图2中a-c面板所示的策略对于快速查看给定数据集中的样本集群非常有用。如果使用这些策略为每个样本分配MOA类，则该方法将被称为“半监督”，因为在创建共享空间后，将使用接近已知MOA的化合物来分配MOA。

如果从图像中提取原始特征并将其放置在表型空间中而不进行调整，那么样本通常不会形成明显的聚类(图2a)。所有特征都是同等权重的，这样那些与手边任务最相关的特征通常会被无关的、噪声的或冗余的特征淹没。

一个无监督机器学习方法可以为每个特性选择适当的权重为了强调重要的和抑制噪声或冗余的(图2b)。自我监督策略利用冗余的图像信息提取一个信号(图2c)。网络学习到的重加权特征的表型空间通常能更好地识别MOA类。当MOA注释或分析活性值可用时，问题就会受到监督(图2d)。

图2

基于谱的表型发现和筛选：

即使在对疾病机制进行了多年的基础研究之后，也需要花费数月至数年的时间来开发一种传统的基于图像的筛查方法。一个耗时的步骤是假设和设计一个或几个相关的分析读数，最常见的是一个分子或其他细胞成分的染色。在这一步上花费的时间可以通过使用一般的染色方法(如Cell Painting)显著减少；将基于图像的分析应用于此类图像，通常会产生比定制着色更广泛的特征集。在传统的基于图像的分析发展中，研究人员也花了相当大的精力来选择合适的条件来测试药物对假定的疾病相关细胞表型的影响，这可能包括细胞类型和培养条件、适当的刺激和药物暴露的时间。在这里，时间也可以通过更通用的方法来缩短；例如，它依赖于一个简单的培养细胞系统和标准化的检测条件。然而，通过仔细选择样品材料、刺激因素和时间点来开发定制的分析读数可能会产生更高的发现疾病相关表型的可能性，这可能证明更长的分析开发时间线是合理的。此外，许多疾病规划将涉及高度定制的分析作为二级分析。

基于概要的表型发现和筛选的典型步骤如下：

l 通过表1中描述的策略，准备代表疾病状态和健康状态的生物样本集；

l 捕获基于图像的配置文件，并试图识别患病和健康样本之间的任何可重复表型差异。这种表型差异将成为筛选的目标，即表型分析的读出。这个读数可能是从单个图像通道中提取的单一特征(本质上是传统的高含量分析)，也可能是一个区分患病和健康状态的多特征剖面。可能需要机器学习和附加信息来过滤混杂信号和噪声；

l 简化分析(例如，去除不必要的荧光标记)以降低成本，或添加标记，为命中提供有用的分类功能；

l 使用已确定的处理过的表型或剖面测试数千到数百万种化学物质，看它们是否有能力将疾病形态逆转到类似健康状态；

l 识别或验证疾病的新靶点。