本次小编分享一篇2022年1月7号发表于Nucleic Acids Res(IF:16.971)的文献,题目为《LncACTdb 3.0: an updated database of experimentally supported ceRNA interactions and personalized networks contributing to precision medicine》,影响因子16.971。该文献介绍了LncACTdb数据库的更新,这是一个包含ceRNA和相应的个性化网络之间有实验支持的相互作用的数据库,新增的功能可以促进与疾病相关的ceRNAs的识别,并有利于研究它们在生理和病理过程中的作用。
LncACTdb更新到3.0版本(LncACTdb 3.0)后,提供了更多的数据和更新的特征,专注于个性化的ceRNA网络(表1)。来自TCGA和GEO的62个数据集的16228名患者中新确定的个性化lncRNA相关的ceRNA相互作用和网络已集成到LncACTdb 3.0中(图1)。为了更全面的诠释lncRNA,我们收集了超过10000个实验支持的与肿瘤转移(如复发、预后、循环和耐药)相关的lncRNA生物标志物。LncACTdb 3.0还提供了从文献和相关数据源手工整理的亚细胞和细胞外位置的详细信息。结合个性化ceRNA网络,将数千例患者lncRNA/mRNA/miRNA表达谱的整理以及转移、复发、耐药、预后等临床信息整合到lnccactdb 3.0中,进行个体病理分析。此外,作为对数据库的重要补充,我们在LncACTdb 3.0中设置了几个灵活的工具来检索和分析数据。例如,LncACT-Tree是一种工具,用于显示不同患者之间的ceRNA分布和生存状态,而LncACT-Network用于基于数据集、个体和分子水平提供一个ceRNA网络。此外,患者特异性基因调控网络的识别将有助于在个体水平上理解疾病病理,并进一步促进精准医学。总的来说,这个更新的数据库可以促进与疾病相关的ceRNAs的识别,并有利于研究它们在生理和病理过程中的作用。
表1.LncACTdb 3.0的数据内容和改进的功能
图1.LncACTdb 3.0的数据扩展和特性
实验支持的ceRNAs的扩展:
LncACTdb 3.0进行了更新,以容纳更多数量和类型的ceRNA关联(图1)。在这次更新中,我们使用与ceRNA相互作用相关的关键词审查了PubMed数据库中已发表的文献,并发现了超过15000篇相关文章。从2018到2021,ceRNA相关研究有了很大的增长。基于这些文章,我们根据之前定义的标准手动策划了实验支持的ceRNA相互作用。只有通过高置信度实验(如荧光素酶报告试验、PCR、western blot或其他可靠实验)验证的ceRNA相互作用被视为候选。至少有两名研究人员确认了候选的ceRNA相互作用,并将其编入策展。目前版本的LncACTdb记录了5669个实验支持的ceRNA相互作用,包括913个lncRNAs、1723个mRNA、337个circRNAs和19个假基因。LncACTdb 3.0的范围已扩展到25个物种和537种疾病/表型。
人工固化实验支持的生物标记物:
越来越多的证据表明,lncRNAs在ceRNA调控中发挥着重要作用。上游lncRNA可以动态缓冲靶基因表达,进而影响不同的生理和病理过程。一些众所周知的lncRNAs,如MALAT1,已被确定为转移、复发和潜在药物靶点的生物标志物。在LncACTdb 3.0中,我们对实验支持的lncRNA生物标记物进行了手动标记,为肿瘤诊断和治疗提供了新的见解。根据我们之前的研究,与这些lncRNA生物标记物相关的生物学过程被分类为自噬、凋亡、细胞生长、循环、耐药性、上皮-间充质转化(EMT)、免疫、转移、复发和生存。高置信度实验仅收集了参与这些过程的lncRNAs。LncACTdb 3.0目前记录了总共10084个实验支持的lncRNA生物标记物。
患者特异性ceRNA和网络的识别:
在复杂的肿瘤微环境下,同一疾病的患者可能会表现出不同的行为,这是由ceRNA调节的微调驱动的。因此,识别特定于患者的ceRNA和网络将加深对疾病病理学的理解,并有助于精确医学的发展。从starBase(v2.0)和LncACTdb(v2.0)下载了总共108668名候选人的ceRNA信息。在这项研究中,我们使用了一种已发表的基于概率理论开发的方法,来识别不同数据集中患者特定的ceRNA和网络。在我们之前的研究中,该策略被用于以单细胞分辨率构建ceRNA网络。简单地说,通过测试特定样本中lncRNA和mRNA表达值的统计独立性,估计了特定样本中ceRNA相互作用(lncRNA–mRNA)的相关性。在筛选所有ceRNAs在统计学上不独立表达的样本后,我们对这些样本中的lncRNA和mRNA表达进行了皮尔逊相关检验。只有当相关系数为正且P值小于0.05时,这些样本中的ceRNA关系才得以保留。我们从TCGA和GEO公共数据集中收集了来自33种癌症类型的16228名患者的62个高通量表达谱。我们确定了93307项针对患者的ceRNA规定,其错误发现率(FDR)<0.05。此外,我们以癌症特异性的方式纯化了ceRNA对。ceRNAs的特异性通过使用之前描述的方法计算特异性得分进行定量表征。为了探索不同个体表型背后的ceRNA调节机制,我们收集了详细的临床和病理信息,如每位患者的肿瘤转移、复发、耐药性和生存状态。结合个性化的ceRNA网络、临床和病理特征以及功能背景,将为个体病理分析提供见解。
数据库建设和用户界面的改进:
LncACTdb 3.0,使用MySQL软件(V5.5)执行数据管理。这些网页是使用Java服务器页面开发的,并部署在Tomcat web服务器(v6)上。一些Java脚本插件,如jQuery(v1.11.3)、Datatable(1.10.10)和ECharts(V4.0)用于数据表的创建和可视化。所有统计分析均使用R框架(v3.6.3)进行。LncACTdb 3.0数据库可在以下网址免费获取:http://bio-bigdata.hrbmu.edu.cn/LncACTdb或http://www.bio-bigdata.net/LncACTdb。LncACTdb的2.0版也仍然可用。要访问LncACTdb 2.0,用户可以访问LncACTdb 3.0主页上的链接,或直接访问http://www.bio-bigdata.net/LncACTdb2.0。
LncACTdb 3.0提供了一个用户友好的web界面,用户可以通过几个简单的步骤搜索、浏览、分析和下载数据(图2)。在“主页”上,用户可以使用快速搜索引擎直接调查数据或进行分析。我们以著名的lncRNA MALAT1为例,探索(i)相关的实验支持的ceRNAs,(ii)患者特异性ceRNAs,(iii)样本的临床信息和(iv)用于诊断和治疗的生物标记物(图2A)。所有可能的记录都显示在搜索结果页面上(图2B)。为了获得有趣的记录,用户可以通过单击不同列的标题灵活地对结果表重新排序。第一列和最后一列将引导用户进入详细信息页面,显示相关疾病、竞争性miRNA的数量、数据集信息、实验验证方法,以及可以找到这种ceRNA的患者数量/百分比(图2C)。LncACTdb 3.0还提供了一个浏览页面,可以根据不同的分类访问数据集(图2D)。此外,还开发了一组用于研究ceRNAs调控机制的在线工具(图2E-K)。使用功能工具,用户可以根据GO术语和生物途径探索lncRNA功能(图2E)。对于ceRNA,定位工具提供了lncRNAs、miRNAs和mRNAs的所有可能的亚细胞和细胞外囊泡位置(图2F)。对62个癌症数据集的ceRNA相互作用或单个基因(lncRNA、mRNA、miRNA或假基因)进行生存分析,并生成Kaplan–Meier生存曲线(图2G)。hallmark和state工具允许用户在个体水平上研究ceRNA对10个经典癌症hallmark过程和14个肿瘤细胞状态的影响(图2H-I)。对于某种疾病,Tree工具提供了ceRNA在不同样本中的分布,使用户可以探索ceRNA对不同群体的临床和病理状态的影响(图2J)。网络工具提供了(i)输入lncRNA的所有可能相关ceRNA相互作用的全局视图,(ii)患者特定的,以及(iii)用户选择疾病和节点的定制ceRNA网络(图2K)。用户可以使用不同的布局调整网络,例如强制直接或循环。此外,为了总结ceRNAs的研究现状,为LncACTdb 3.0开发了一个热点页面,说明访问量最大的项目的统计信息。
图2.LncACTdb 3.0的案例研究和工作流。
在之前版本的LncACTdb数据库(版本1.0和2.0)中,仅记录了有限数量的ceRNA相互作用。随着高通量技术和实验方法的逐步改进,最近发现了越来越多的ceRNA,特别是从2019到2021。相关研究的迅速出现,需要将相应的数据集收集到新版本的LncACTdb数据库中。随着精确医学的发展,识别特定于患者的ceRNAs和网络将加深对疾病病理学的理解,并有助于个体诊断和治疗。因此,我们开发了LncACTdb 3.0,将更多数据和新功能集中在个性化的ceRNA网络上。目前版本的LncACTdb记录了5669个实验验证的ceRNA相互作用,通过手动整理超过6000份已发表的手稿,跨越25个物种和537种以上的疾病/表型。来自62个数据集的16228名患者的新确定的个性化lncRNA相关ceRNA相互作用和网络被整合到LncACTdb 3.0中。为了提供更全面的注释,收集了数以千计的诊断和治疗生物标记物、生物学术语、途径基因集、亚细胞和细胞外小泡位置,以及患者的临床和病理信息。作为升级,开发了一组用于检索和分析数据的灵活工具。在LncACTdb 3.0中,识别患者特异性基因调控网络有助于在个体水平上理解疾病病理学,并进一步促进精准医学。预计在未来,通过实验确定的高机密性ceRNA数据集的数量将迅速持续增加,我们将继续维护和更新LncACTdb数据库,提供更多数据集和改进的服务,从而提高我们对lncRNAs的理解,为个性化的癌症诊断和治疗做出贡献。

