本次小编分享一篇在2021年3月4日发表于Cell Stem Cell的文章,题目为《Integrative Single-Cell RNA-Seq and ATAC-Seq Analysis of Human Developmental Hematopoiesis》,影响因子24.633。人类发育过程中造血作用的调节仍不明确。本文应用了单细胞RNA测序(scRNA-seq)和单细胞转座酶可及染色质测序(scATAC-seq)对来自胎儿肝脏和骨髓的8000多个人类免疫表型血细胞进行了检测,并推断了它们的分化轨迹,同时在造血干细胞(HSC)/多能祖细胞(MMP)下游发现了三个高度增殖的寡祖细胞群。沿着这一轨迹,观察到染色质可及性和分化的相反模式,与不同谱系特异性转录因子活性的动态变化相一致。染色质可及性和基因表达的综合分析显示,造血干细胞/MPPs在其谱系确定之前存在广泛的表观遗传启动,而不是转录启动。最后,本文对造血干细胞/MPPs的分选策略进行了优化和功能验证,实现了约90%的富集。这篇研究为未来在血液病理学和再生医学的背景下研究人类造血发育提供了一个有用的框架。
在胚胎发育过程中,造血干细胞(HSC)需要迅速分化成成熟的血细胞。我们目前对胎儿造血干细胞和祖细胞(HSPC)的认识主要是通过小鼠和体外模型系统来推进的。在人类中,造血开始于受孕27天后,在背主动脉造血簇中出现造血干细胞,这些明确的造血干细胞在受孕后4周(pcw)首先在胎儿肝脏定植,在那里进行增值,在10.5 pcw时,造血部位再次转移到骨腔,在骨髓(bone marrow [BM])永久建立成人造血系统。在历史上,造血系统的分化过程被描述为一系列的中间步骤,由细胞表面标记,在这个通常被描述为“造血树”的模型中,造血干细胞产生越来越多的细胞类型,最终形成成熟的血细胞。造血干细胞早期的机制在很大程度上尚不清楚。已经假设,谱系特异性转录因子(TFs)高于噪声阈值的随机表达可以“锁定”一个细胞进入不同的细胞命运。与此一致的是,在多能造血细胞中已经观察到与拮抗谱系相关的基因共表达。这表明在多能性细胞中存在亚群细胞,这一现象被称为“启动”。最近,人类HSPC的单细胞RNA测序(scRNA-seq)引入了不同的引物概念。
在这里,我们对来自17-22 pcw人胎儿肝脏、股骨和髋关节的8000多个免疫表型HSPC进行了整合分析,以确定血液分化过程中的转录和表观遗传变化。我们在HSC/MPP的转录和染色质水平上探索了谱系引物,并完善了分离高富集HSC/MPP群体的分选策略。
人类胎儿肝脏和骨髓造血室的单细胞转录组
为了捕获胎儿发育期间的全部造血细胞库,我们从匹配的胎儿肝脏、股骨和髋骨中对17-22 pcw之间的表型定义的血液群体进行单细胞分选(图1A)。在所有的实验中,来自肝脏、髋关节和股骨的细胞都是独立地分选和处理的。因此,每个细胞都可以追溯到胎儿和它来自的器官。
使用SmartSeq2协议对15个胎儿的单细胞进行scRNA-seq处理。总体而言,4504个细胞通过了质量控制(QC),平均每个细胞3600个基因,每个细胞670000个读取值。为了排除技术中的批次效应,我们使用自动编码器(AEs)合并来自所有样本和组织的数据集,并将批量平衡k近邻(BBKNN)方法应用到潜在空间。我们将基于图的Leiden聚类算法应用到批修正邻域图。基于差异表达(DE)分析和标准化表达显著性排名前20位的标记基因(图1B),我们手工注释了23个不同群体。
在过去的十年中,人类造血干细胞和其他祖细胞群体已经被分离出来,并用于基于特定细胞表面标记集的功能检测。有人认为,胎儿造血祖细胞室与成人造血祖细胞室有很大的不同。
单细胞分析显示,所有免疫表型定义的干细胞和祖细胞群体与一些表型祖细胞群体(如造血干细胞、mpp、cmp、gmp、MEPs和CLPs)相比,转录具有显著的异质性。我们的比较分析表明,目前使用的细胞表面标记物并不能很好地预测人类胎儿造血祖细胞的转录状态。
胎儿造血过程中分化轨迹的推断
接下来,我们使用一种力向图绘制算法Force-Atlas2来推断人类胎儿发育过程中造血细胞的分化轨迹。得到的全局拓扑揭示了HSC/MPS在轨迹的顶端(图2A和图2B)。在造血干细胞/MPP的下游,我们鉴定了三个不同的、高度增殖的、寡能的祖细胞群体。我们使用Scanpy的dpt函数来推断细胞沿着图形通过测地距离的进展。然后,我们使用Scanpy的paga_path函数显示了在抽象图中,沿着三条主要路径(MEMPs、GPs和LMPs)的基因表达和注释的变化(图2C)。
MEMPs将造血干细胞/MPPs与MKs、红细胞和肥大细胞连接起来。与此一致的是,HSC/MPP向MEMPs转变的差异调控基因包括MK/红细胞/肥大细胞谱系特异性基因,如GATA1, ITGA2B, PLEK, KLF1, HDC和MS4A3(图1B和图2C)。此外,我们还发现了一个MEMPs-cycle的增殖群体,其中92%处于G2M/S期,而MEMPs的这一比例为65%(图2E)。与MEMPs相比,MEMPs-cycle群体进一步上调了红细胞特异性基因,如KLF1、BLVRB和TFRC,表明它们逐渐向红细胞系靠拢。
接下来,我们使用Python实现单细胞调控网络推理和聚类(SCENIC),以确定HSPC和成熟血细胞中跨越分化轨迹的主调控因子和基因调控网络(GRNs)。我们发现了162个调控因子,其中一些在许多不同的细胞类型中富集,通常作为特定分化分支的一部分,还有一些是细胞类型特异性的(图2D)。我们确定HLF和HOXA9是造血干细胞/MPPs的主要调控因子(图2D)。FOXO3对红血球细胞和EOMES、OLIG2和IRF8分别对NK细胞、单核细胞和pDCs具有高度特异性。重要的是,这些规则证实了推断的分化轨迹。
为了进一步探索HSC/MPP群体的异质性,我们检测了HSC/MPP是否同时启动了几个不同的家族附属的基因活性程序。虽然造血干细胞/MPPs零星表达淋巴、髓系或MK-红系分化基因,但我们没有观察到单个细胞中拮抗谱系相关基因的一致表达。此外,在进一步对造血干细胞/MPPs进行亚聚类后,在任何一个亚群体中都没有明显的谱系附属转录程序合并。因此,我们的scRNA-seq数据不支持最近报道的胎儿HSC/MPP室的转录谱系启动,并且,我们的HSC/MPP簇代表了一个高度不成熟的细胞群体。
胎儿非定向祖细胞的scATAC-Seq(CD34+ CD38−)
由于该方法的技术局限性,在scRNA-seq数据中检测低丰度转录本(如转录因子)可能很困难,从而导致假阴性。然而,这些TF的活动可以从染色质可及性推断得出,这就强调了整合scRNA-seq和scATAC-seq数据的方法的重要性。此外,调控区域的染色质可及性可能先于基因活性,因此,对基因的未来转录具有预测价值。为了进一步研究在非常不成熟细胞群体中的调控事件,我们检测了人胎儿Lin CD34+ CD38细胞的单细胞染色质可及性景观(使用scATAC-seq) (STAR方法)。我们对来自三个胎儿的4001个细胞进行了测序(STAR方法)。根据我们的scRNA-seq数据,预计90%的捕获细胞将与六个群体中的一个相关:造血干细胞/MPPs、造血干细胞/MPPs- Cycle、MEMPs、MEMPs-Cycle、GPs和LMPs,其中造血干细胞/MPPs (Cycle)占多数。
为了捕获在不太丰富的细胞类型中出现的峰值,如MEMPs、MEMPs-cycle、GPs和LMPs,我们采用了一种迭代的峰值调用方法。我们首先通过汇集所有数据和调用汇集样本中的峰值来定义开放的染色质区域。在使用扩散图降维和使用Louvain社区检测算法聚类之后,我们对超过50个细胞的集群进行了第二轮峰值调用。在最初的47.4万reads中,经过预处理步骤,平均每个细胞检测到32400个片段,其中56%映射到峰值。3611个细胞通过了QC,有152282个明显的峰。
沿推断分化轨迹的主题可访问性动态
为了合并样本并去除批次效应,我们使用了Harmony到前50个潜在语义索引(LSI)组件,排除第一个组件,因为它与测序深度高度相关。通过使用共享最近邻(SNN)模块化优化聚类算法,我们得到了7个不同的具有差异可访问峰值的聚类(图3A)。
为了探索7个簇的染色质可及性,我们从scRNA-seq数据中检测了选定标记基因的可及性(图3B)。观察到,与干细胞相关的标记基因(如MLLT3、PROM1、FLI1和GATA2)的可及性较高,而与不同谱系相关的基因(如MPO、ALAS2、MPEG1和CD19)的可及性较低,这符合已分选细胞的未分化特性(图3B)。有趣的是,我们发现根据标记基因的总体可及性,聚类之间存在明显的分离,聚类1、2、4和7的可及性更强,而聚类3和5的可及性较差。(图3B)。
整合scRNA-Seq和scATAC-Seq数据
接下来,我们希望将来自scATAC-seq数据的单元格映射到特定的单元格类型。由于目前还没有人类胎儿HSPC的染色质可及性图,我们选择了一种策略,通过基于细胞的基因体可及性绘制细胞,整合我们的scRNA-seq和scATAC-seq。我们使用了一种最近开发的方法,识别跨两种不同类型数据集的单个单元之间的成对对应(称为“锚”),并将它们转换为共享空间。这种方法允许我们将由分类器学习到的scRNA-seq衍生的注释转移到scATAC-seq数据(STAR方法)。
我们使用六种最丰富的细胞类型(STAR方法)对来自scRNA-seq实验的CD34+ CD38细胞训练分类器。总的来说,57%的scat-seq细胞被分配到HSC/MPP组,18%分配到HSC/MPPs-Cycle组,5%分配到MEMPs组,7%分配到MEMPs-cycle组,7%分配到GPs组,3%分配到LMPs组。预测评分低于40%的细胞被标记为未分类(?5%)(图4A)。
scATAC-seq数据集中指定的细胞类型的频率与来自scRNA-seq数据的频率高度一致。为了验证scATAC-seq细胞的细胞类型分配,我们检测了每种注释细胞类型中选择的谱系特异性TF基元的可达性(图4B)。与预测注释一致,GATA1基序在MEMPs和MEMPs-cycle中显示出最高的可及性,而TEF2(已知在髓系和淋巴系分化中发挥作用)在GPs和LMPs中最为活跃。证实了我们之前的观察,两个截然不同的TAL1基序具有反相关的可及性。
然而,分类后的scATAC-seq细胞的Force图谱显示,不同类型的细胞在整个轨迹中相当多的混合,在簇6中富集了MEMPs/ MEMPs-cycle,在簇2和簇3中富集了GPs和LMPs(图4C)。HSC/MPP(-Cycle)分布在所有7个集群中。在scATAC-seq数据中,HSC/MPP在多个簇中的广泛分布(-cycle)表明,尽管染色质可及性和胎儿HSC/MPP的转录状态相关,但在HSC/MPP人群中存在广泛的染色质启动,导致了它们的异质性。
接下来,我们比较了七个集群中HSC/MPP中选择的谱系特异性TF基序的可达性(图4D-4G)。我们观察到,在聚类1中,所有被检测的TFs的活性都很低,随后HTF4的活性在统计学上显著增加,簇2和簇3中造血干细胞/MPP的ID4、TFE2和GATA1降低。然而,在第6组中,造血干细胞/MPP中GATA1活性增加。我们观察到在造血干细胞/MPP中,在任何明显的基因表达之前,gata1调控靶基因的启动子通常是打开的(图5A)。因此,根据我们之前的观察,造血干细胞/MPPs中的染色质可及性先于转录变化,而转录变化只存在于分化程度更高的细胞中。有趣的是,聚类6 (MEMPs)中GATA1靶基因的启动子可及性总体上低于聚类1 (HSCs/MPPs)(图5B、5D和5E),这与拮抗基因的启动子共可及性较低相吻合(图5B、5D和5E)。相比之下,聚类6中远端调控元件/增强子的可及性高于聚类1(图5C)。这可能表明gata调节基因可能在启动子上启动,而增强子贡献细胞类型特异性的表达。
验证HSC/MPP身份及其分化能力
鉴于目前观察到的用于分离纯祖细胞群体的常用分选标记的局限性,我们设计了一种新的荧光激活细胞分选(FACS)策略,该策略基于从我们的scRNA-seq数据集中该群集的前20个标记基因中选择的细胞表面标记。HSCs/MPPs的精制面板包括Lin CD34+ CD38 + CD52+ CD62L+ CD133+(以下简称CD-REF;图6 A)。
为了评估CD-REF细胞的分化潜能和谱系输出的稳健性,我们从小鼠MS5饲养层或更具有生理相关性的人胎间充质干细胞(FMSC)中分离出三个胎儿的单个细胞(图6C)。2周后,80%的细胞在MS5上分选,85%的细胞在人FMSCs上分选(图6D)。
接下来,我们从同一个胎儿(n=2)的骨髓和肝脏(MS5饲养层)中分离出单个CD-REFs和免疫表型造血干细胞(CD34+CD34 CD90+CD45RA CD49f+/),并评估了总共324个细胞的谱系输出。我们的分析表明,来自肝脏和股骨的CD-REF细胞在集落形成和谱系输出方面具有相当的功效,这表明CD-REF富集于HSC/MPP细胞群。
研究的局限性
在这项研究中,我们使用单细胞转录组学/表观遗传学和体外单细胞分化试验的组合来描述人胎儿肝脏和骨髓造血。为了避免冻融循环引起的扰动,所有实验都是在新鲜分离的组织上进行的。这种实验设计和分析组织的性质有一些局限性:(1)样本很少,(2)不同发育阶段和胎儿个体之间的细胞数量差异很大,尤其是在骨髓中。可供分析的细胞数量有限。因此,我们无法获得足够的细胞来进行异种移植实验,以确认我们从骨髓中收集的CD-REF细胞的干细胞身份和自我更新潜能。相反,我们使用单细胞体外检测作为一种替代方法,但不是一个细胞多谱系潜能的最佳读出方法。此外,我们只能从单个胎儿中收集有限数量的不同表型定义的群体;因此,对于任何给定的群体,分析样本的数量都相对较低。
Mid-Autumn
Festival

