https://www.sciencedirect.com/science/article/pii/S2590346224002864
论文
Single-cell network analysis reveals gene expression programs for Arabidopsis root development and metabolism
10× Genomics
我在网上找资料,这个单细胞测序技术会有三个fastq文件
这篇文章的原始测序数据我下载下来是两个文件
一个序列很短 另外一个序列90几bp
这里不太理解的地方:
所有细胞的数据全在一个fastq文件里,cell ranger去做比对,然后就能够得到行是基因,列是细胞的表达量矩阵,这个过程是是怎么判断哪个数据来源于哪个细胞的呢?
这个论文里提供了最终的表达量矩阵
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE147289
这个表达量矩阵的列的名字是一串序列,这个序列是用来区分细胞的index吗?
试着跑一下Seurat流程
论文中提供的代码
https://ars.els-cdn.com/content/image/1-s2.0-S2590346222000530-mmc9.txt
代码
library(tidyverse)
library(Seurat)
data.table::fread("GSM4423536_AT12_scRNA_gene-cell.matrix.txt.gz") %>%
dim()
data.table::fread("GSM4423536_AT12_scRNA_gene-cell.matrix.txt.gz") %>%
.[1:5,1:5]
seurat_dat<-data.table::fread("GSM4423536_AT12_scRNA_gene-cell.matrix.txt.gz") %>%
column_to_rownames("gene")
seurat_obj<-CreateSeuratObject(seurat_dat,
project = "AT12",
min.cells = 3)
AT12<-subset(seurat_obj,subset = nFeature_RNA < 6500 & nFeature_RNA > 650)
AT12<-NormalizeData(AT12,normalization.method = "LogNormalize")
AT12<-FindVariableFeatures(AT12,selection.method = "mvp")
AT12<-ScaleData(AT12,features = rownames(AT12))
AT12<-RunPCA(AT12)
ElbowPlot(AT12,ndims = 50)
AT12<-FindNeighbors(AT12,dims = 1:20)
AT12<-FindClusters(AT12)
AT12<- RunTSNE(AT12, dims = 1:20)
AT12<- RunUMAP(AT12, dims = 1:20)
library(RColorBrewer)
library(ggsci)
color1<-brewer.pal(12,"Paired")
color2<-pal_npg("nrc",alpha = 0.7)(10)
DimPlot(AT12,label = T,reduction = "umap",label.size = 5,cols = append(color1[c(1:9,12)],color2),
pt.size = 1)
这个结果和论文中是完全反着的,x和y轴应该是分别取了负数
论文中还有很多其他分析的代码
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

