大数跨境

Neuron | ATAC-seq助力机器学习剖析灵长类神经发育中的人类演化加速区

Neuron | ATAC-seq助力机器学习剖析灵长类神经发育中的人类演化加速区 Biolinker
2023-10-14
2


人类加速区(Human accelerated regions,HARs)是高度保守的序列,它的功能在人类进化过程中发生了变化,可能改变了我们与黑猩猩和其他动物区别开来的特征,如形态、饮食、繁殖和认知方面的差异。


HARs在胚胎发育阶段特别是神经发育期间与疾病相关基因富集。因此,HARs是研究人类特异性特征的极佳序列。


2023年1月美国加州大学旧金山分校人类遗传学研究所的研究团队在Neuron期刊(IF=16.2)上发表了题为“Machine learning dissection of human accelerated regions in primate neurodevelopment”的文章。


研究结果表明HARs的进化并不是为了补偿跨环境的变化,而是改变了物种中结合因子的能力。因此,机器学习(machine learning, ML)优先考虑了对人类神经发育功能有影响的变异,并揭示了HARs进化得如此之快的一个可能的原因。


ATAC-seq 实验设计


样本信息:男性人类(n=2)和雄性黑猩猩(n=2)的诱导性多能干细胞(induced pluripotent stem cell , iPSC)

测序策略:Illumina HiSeq4000,PE150


主要研究结果


1.机器学习通过数百个表观遗传特征描述HAR增强子


作者首先对之前研究中的2,645个非编码HARs进行表观遗传学分析,揭示人类和黑猩猩HARs在调控潜力上的重要差异。


为了将HARs的体外表观遗传特征与体内增强子联系起来,作者利用ML整合ChIP-seq和ATAC-seq数据,分析发现在人类大脑中70%的HARs (1,846/2645个)与开放染色质区域相重叠,而在其他组织中显著较少。


与多组织增强子功能一致,808个HARs同时具有神经和非神经标记。这些结果表明在神经发育之外的许多情况下,HARs可能在作为增强子发挥作用。


然后,作者在相同的表观遗传空间中注释和共嵌入HARs,发现许多HARs与体内的神经发育增强子聚集在一起。使用训练好的ML模型,根据HARs的表观遗传特征与神经发育增强子功能的一致性来评分,发现得分较高的HARs重叠了更多的神经发育表观遗传标记。


图1. HARs的体内表观遗传景观

2.深度学习预测大多数个体的HAR变异会改变增强子的活性



为了全面测试所有个体的HAR变异如何影响增强子活性,作者使用了深度学习模型Sei。


通过向Sei展示人类-黑猩猩在HARs中的固定差异,从而预测染色质状态是否发生改变。


结果表明,大多数HAR变异至少在一种组织特异性增强子状态下改变增强子活性。染色质状态的变化通常在不同的组织中是相关的,然而,一些HAR变异具有组织特异性影响。


为了将这些结果联系起来,作者量化了HAR变异与不同功能类别的单核苷酸多态性(single-nucleotide polymorphisms, SNPs)的Sei增强子状态变化。


结果表明大量的HAR变异在人类进化过程中改变了增强子活性。


图2.在深度学习模型中人类特异性变异改变了HAR增强子谱

3.从TF足迹预测HAR增强子活性的物种差异



       作者想要利用同源HARs中TF足迹的物种差异来更好地了解HARs的序列和表观遗传变化如何与lentiMPRA(lentivirus-based MPRA)中物种偏向的增强子活性相关。


     发现大部分的大脑TF(Transcription factors, TF)有多个HAR变体的足迹重叠,一些人的大脑增强子活性会下降或上升。


       结果表明TF结合位点的丧失和获得是HAR增强子活性在人类进化过程中发生变化的合理机制。


       其次,还发现在人类进化过程中,HAR神经发育增强子活性的变化可以通过TF足迹的损失和获得准确地概括。



图3.TF足迹的变体预测HAR物种偏差

结 语


       本篇文章使用ML,预测了在2,645个HARs中所有人类-黑猩猩变体的功能,发现43%的HARs有变体对染色质状态有较大相反影响,14%的HARs有变体对神经发育增强子活性有较大相反影响。


      并且根据每个物种中转录因子足迹的存在和缺失,准确预测了HARs的物种特异性增强子活性。在人类和黑猩猩细胞中,特定HAR序列的活性几乎是相同的。


      这表明HARs的进化并不是为了补偿跨环境的变化,而是改变了它们结合两种物种中存在的因子的能力。


领克生物致力于新一代高通量测序技术(NGS)的应用和推广、生信分析、临床辅助诊断、产前检测、转化医学研究等领域。


业务包括单细胞多组学测序、基因组重测序、外显子测序、WGBS、RRBS、转录组测序、LncRNA测序、miRNA测序、ATAC-seq、CUT&Tag、Hi-C、4C-seq、m6A测序等前沿技术服务、各类组学数据的个性化分析服务以及临床疾病的辅助诊断、产前检测等。

欢迎咨询了解~      

电话:0871-65399960   

邮箱:service@biolinker.com

【声明】内容源于网络
0
0
Biolinker
领克生物是一家专业提供高通量测序技术服务、单细胞多组学以及定制化生信分析的生物技术服务企业。主营业务:BD平台单细胞多组学、10X多组学、新格元单细胞转录组、表观组学、三代测序以及定制化实验方案(农口+医口)等。
内容 34
粉丝 0
Biolinker 领克生物是一家专业提供高通量测序技术服务、单细胞多组学以及定制化生信分析的生物技术服务企业。主营业务:BD平台单细胞多组学、10X多组学、新格元单细胞转录组、表观组学、三代测序以及定制化实验方案(农口+医口)等。
总阅读11
粉丝0
内容34