大数跨境
0
0

完全无需担心harmony算法对单细胞转录组的过度整合啊

完全无需担心harmony算法对单细胞转录组的过度整合啊 Ethan教跨境电商
2025-10-03
36
导读:众所周知,10x 芯片每跑一次就是独立批次(试剂、通道、时间、聚合酶效率、GEM 生成温度…),这样的话多个样

众所周知,10x 芯片每跑一次就是独立批次(试剂、通道、时间、聚合酶效率、GEM 生成温度…),这样的话多个样品如果想一起降维聚类分群就需要面临多样品整合的难题。

但是“整合”≠“把差异抹平”;比较好的算法应该是只去掉批次协方差保留真实生物学协方差。比如处理前 vs 处理后这种成对/纵向设计,批次与生物学效应完全重叠,此时:

  • 如果先做暴力批次回归(如 ScaleData(vars.to.regress="batch")),会把处理效应一起减掉→ 假阴性。
  • 正确姿势是整合(integration)——用 mutual-nearest-neighbour 或 anchor 方法(Seurat CCA、Harmony、Scanorama、fastMNN)让相同生物学状态的细胞跨样本对齐,而处理组特有的细胞状态(如新的亚群、活性通路)仍被保留

所以很多人会有疑惑,是不是任何多样品实验设计都需要整合一下呢。如果极端情况下,每个样品里面的都是独特的单细胞亚群,那么它们会被强行整合在一起吗?让我们一起看看文章《A single cell RNAseq benchmark experiment embedding “controlled” cancer heterogeneity》,有单细胞转录组测序原始数据,也有表达量矩阵,非常适合初学者学习:

  • https://www.nature.com/articles/s41597-024-03002-y
  • https://identifiers.org/geo/GSE243665 (2023).
  • https://identifiers.org/ncbi/insdc.sra:SRP462078 (2023).

数据量有点大,The sequencing was done on two lanes of NovaSeq X plus 10B flow-cell. The total sequencing was 2.46 billion reads with a minimum of 71.26% of bases ≥ Q30.

一般来说无需从fq文件开始,下载表达量矩阵即可。作者把 7 条携带不同肺癌驱动突变(EGFR、ALK、MET、ERBB2、KRAS、BRAF、ROS1)的细胞系按已知比例混到一起,用 10x 3' CellPlex 一次上机,生成一份“成分可控的肿瘤异质性单细胞基准数据集”(BE1)。 这套数据没有正常组织、免疫细胞或基质污染,突变和表达标签事先明确,因此可以用来客观评价单细胞聚类、去批次、驱动基因变异检测、耐药演化等算法的灵敏度和特异度,而不必担心真实肿瘤样本中“真相未知”带来的评估偏差。

读取GSE243665页面给出来了的表达量矩阵,走第一层次降维聚类分群代码,默认就有harmony处理,可以看到每个肺癌细胞系的单细胞转录组样品都是独立的亚群,并不会被harmony强行的整合在一起。


不会被harmony强行的整合在一起

CCL-185-IG 本质上是 A549 的等基因(isogenic)工程衍生株,二者基因组背景几乎完全一致,只是前者被转入了 EML4-ALK 融合基因以模拟 ALK 阳性肺癌。
因此,作者故意把它们按已知比例混合,用来:

  1. 验证算法能否在近乎相同的转录背景下仅凭借 ALK 信号把两群细胞分开(benchmark 灵敏度)。
  2. 模拟同一肿瘤内出现获得性驱动突变的微观异质性,而不引入其他遗传背景噪音。

简单说:背景一样,只多了一个 ALK 融合,所以混在一起就是测试“能否捕捉到极细微的分子差异”的黄金标准。

友情转发:

【声明】内容源于网络
0
0
Ethan教跨境电商
跨境分享堂 | 持续更新实用经验
内容 45944
粉丝 1
Ethan教跨境电商 跨境分享堂 | 持续更新实用经验
总阅读253.7k
粉丝1
内容45.9k