直接与生信分析流程对话？次世代生信分析流程框架它来了- 大数跨境

中科生信

2021-10-03

导读：摘要本次小编分享一篇于2021年1月11日发表于Cancer Cell的文献，标题为《Next-genera

摘要

本次小编分享一篇于2021年1月11日发表于Cancer Cell的文献，标题为《Next-generation analytics for omics data》，影响因子31.741。随着高通量组学技术的不断进步，海量的组学数据已经和即将产生，为生物医学研究开启了一个黄金时代，同时也给我们在消化这些数据和形成新的假设方面带来了前所未有的挑战。在一个改进的人工智能模块的支持下，DrBioRight代表了直接通过自然语言执行生物信息学任务的初步尝试。这种具有上述特征的分析平台将产生一种新的研究范式，使组学数据的效用最大化，加速了生物医学研究。

背景

日益增多的组学数据对信息学提出了严峻的挑战。DrBioRight是一个面向自然语言和人工智能驱动的分析平台，使广泛的研究社区能够以直观、高效、透明和协作的方式进行分析。新一代分析技术将最大限度地利用组学数据，为生物医学研究开辟新的范式。

图1. 对组学数据的下一代分析。

A.展示过去几十年主要的组学数据资源和生物信息学工具的时间表；

B.DrBioRight在线聊天界面的快照；

C.DrBioRight分析流程概述；

D.下一代数据分析的主要特征；

E.组学研究的新范式。

结果

组学数据分析面临的挑战

在过去的二十年里，高通量分子分析技术已经彻底改变了生物医学科学。来自数千名患者、动物模型和细胞系的各种组学数据(如基因组、转录组、蛋白质组、表观组和代谢组数据)正在以越来越快的速度积累，这些数据一般是通过ENCODE、基因型-组织表达(GTEx)和癌症基因组图谱(TCGA)等大型联合项目进行积累(Fig1A)。这些丰富的组学数据为系统地描述分子机制和开发相关生物医学应用提供了前所未有的机会。数据激增也给数据分析方面的研究人员提出了一个重大挑战。

多年来，在克服这一挑战取得了重大进展(图1A)。最初，组学数据通常使用生物信息学家或计算生物学家用通用编程语言(如Python、R和Perl)编写的内部脚本进行分析。一些专门的生物信息编程模块集合，如Biopython、BioPerl、Bioconductor和ggplot，可以更容易地分析和可视化组学数据。然而，这些工具仍然需要用户具备一些编程专业知识，这是许多实验研究人员所不具备的。许多基于网络的或独立的生物信息学工具使用户能够在不需要大量编程技能的情况下对组学数据进行各种分析或可视化。然而，这些工具的用途有限，因为它们只支持一组预定义的分析。

近年来，两种比较通用的生物信息学平台开始流行起来。一种是“模块集线器”，如Galaxy和GenPattern，它们为用户提供图形基础设施来组装生物信息学管道并执行用户定义的任务。另一种类型是“交互式数据门户”，如cBioPortal和GTEx，它们侧重于对预加载的数据集进行简单的分析和可视化。尽管做出了这些令人印象深刻的努力，但除了跟踪快速发展的工具和数据集的状态和更新之外，用户仍然需要花费大量的时间来识别合适的工具和学习不同的用户界面/过程。因此，仍然有一个巨大的障碍阻止大多数研究人员(特别是那些没有或有限的生物信息学和统计专业知识的人)以直接的方式充分利用组学数据。

DrBioRight，一个面向自然语言的智能分析原型

我们假设大多数常用的组学数据的标准分析可以使用自然语言有效进行。为了测试这一想法的可行性，我们开发了“DrBioRight”，这是一个面向自然语言、人工智能(AI)驱动的组学数据分析平台(https://drbioright.org)。DrBioRight由两个子系统组成：一个用户友好的web界面和一个后端计算服务器。与其他生物信息学工具相比，DrBioRight采用了一个简单的在线聊天界面，只有一个输入区和一个输出区，与用户的所有交互都基于人类语言(Fig1B)。用户可以简单地在输入区输入一个组学数据分析问题。例如，用户可以输入“perform survival analysis in breast cancer on TP53 gene expression”，检测乳腺癌患者TP53基因表达水平与总体生存期之间是否存在相关性。在接收到输入文本(Fig1C)后，DrBioRight将运行其自然语言处理(NLP)模块对识别的实体进行标记，并基于输入中识别的特征，后端AI模块将计算分数，预测最匹配的分析任务。然后，程序将调用特定的分析模块，识别相关的数据集，并检查所有所需的参数是否已填充。在提交计算任务之前，DrBioRight将要求用户确认检测到的任务是否确实是预期的分析。如果确认，作业调度程序将把任务提交到作业队列，并使用云计算节点来处理它。一旦工作完成，DrBioRight将调用一个适当的可视化模块，并将结果(通常是交互式表或图)发送到输出区域的用户。最后但同样重要的是，DrBioRight将要求对每个成功执行的工作进行评级，由此收集到的反馈将用于进一步提高NLP和AI模块的性能。重要的是，DrBioRight有一个灵活的模块化框架，在此基础上，只需两个简单的步骤就可以添加新的计算分析：添加必要的模块，并使用自然人类语言训练模块。

通过面向自然语言的交互和人工智能驱动的模块，DrBioRight在提高组学数据分析的效率和重现性方面具有巨大潜力。我们已经整理和加载了一些广泛使用的癌症组学数据集，包括TCGA、ICGC和Cancer Cell Line Encyclopedia(总共20000多个样本)。最初我们建立了10个分析模块，涵盖了最常见的组学分析，以及相关的可视化。使用这些模块，用户可以很容易地得到诸如“基因x和基因y在肝癌中的mRNA表达相关性是什么?”以及“TP53突变与肺癌患者的总生存率之间是否存在相关性?”，并使用散点图、Kaplan-Meier图或箱形图将结果可视化。此外，DrBioRight支持从原始下一代测序读取的生物信息学分析。例如，用户可以通过简单地问:“你能做一个RNA测序分析吗?”，然后提供原始数据的来源或位置(如SRA ID)。通过与DrBioRight的对话，用户可以逐步完成整个分析，包括质量控制、读图、基因表达量化、差异表达分析、基因集富集分析。最后，DrBioRight让用户可以方便地检查发布结果的重现性。为了证明这一点，我们关注了一篇经典的癌症基因组学论文，其中分析了560个乳腺癌全基因组的突变模式。从论文中加载已发表的数据集后，通过与DrBioRight的快速对话，可以轻松地复制主要图形中的关键结果。这种并排对比不仅验证了使用我们平台的结果，而且也突出了其提高研究可重复性的潜力。

下一代数据分析的关键特性

随着DrBioRight的成功开发，并展示了其能力和实用性，我们提出了下一代数据分析应该具备的五个关键特性，这将使探索组学数据的方式更加直观、高效、可靠(Fig1D)。

DrBioRight解读自然语言(NLU)

人类语言是人与人之间最自然、最直观的交流系统。为了服务于最广泛的研究团体，必须使用自然人类语言(文本或声音)作为直接输入，将用户的想法与下一代分析联系起来。通过整合NLU，将数据分析的沟通障碍降至最低，包括识别/确认用户意图，将其转化为可执行的生物信息学分析任务。

人工智能(AI)

下一代分析应该使用数据驱动的预测模型来正确地翻译用户的意图，识别适当的数据集和算法，并选择信息可视化。重要的是，根据用户的偏好和反馈，分析系统可以“在工作中学习”，并通过灵活的适应，利用这些经验来提高其性能。

分析过程可重复

可重复性是当今生物医学研究的一个主要问题。下一代分析应该能够实时生成详细的分析报告，而不是一个“黑盒子”。分析报告将包含关于数据集、处理过程和算法的详细信息，确保执行的分析是透明的，获得的结果是可重复的。提供允许用户从已发表的研究中检查组学结果的重现性的功能也很重要。

手机和社交媒体友好

智能手机作为最便捷的通讯工具，为研究人员提供了不受时间和地点限制的组学数据分析平台。下一代移动友好型分析将允许通过智能手机设备更灵活地进行数据分析和可视化。另一个值得期待的功能是启用社交媒体功能。与Facebook messenger或Slack一样，通过在线聊天界面，用户不仅可以与分析工具展开一对一的对话，还可以邀请合作者加入“小组讨论”，并一起探索结果。

开源

为了利用群体的智慧，下一代分析应该积极支持整个研究社区的开放开发，包括算法开发者、数据科学家、生物学家和临床医生的输入。这需要建立一个开放的开发用户中心，允许其他生物信息学家和软件开发者(例如，通过Docker和GitHub)传播和贡献软件，以及一个数据共享系统，允许用户共享他们的私人数据供第三方使用。

迈向组学研究的新范式

有了上述功能，下一代分析将成为智能合作伙伴，而不是工具，与人类研究人员一起探索、分析和解释组学数据。在这样的分析平台中，AI模块是灵活而强大的“大脑”，能够进行各种前沿生物信息学分析，随时掌握最新的知识和资源；NLU模块允许研究人员以方便的对话形式与“大脑”进行有效沟通，类似于与生物信息学合作伙伴进行对话；社交媒体功能通过促进思想交流、工具/数据共享和团队管理来促进团队合作。随着这些进展，我们设想了一个新的令人兴奋的研究范式(图1E)：研究人员可以通过直接与数据分析人员“对话”来启动一个项目，并及时获得所需的组学分析；然后，他们可以在现有文献的背景下解释获得的结果，甚至对已发表的结果进行重复性检查；在分析过程中，分析还有助于利用社区中的各种资源(数据/工具/专业知识)，以提高研究人员发现的质量和影响；最后，通过与实验室自动化和自治系统的可能集成，分析可以指导实验室机器人生成新的实验数据，这些数据可以用于分析，以执行进一步的分析和测试新的假设。