什么？一个单细胞样本变成俩了？

作者: 小洁忘了怎么分身 | 来源:发表于2024-07-25 16:09 被阅读0次

单细胞转录组数据分析课件||5. scRNA-seq data
内容过硬的单细胞和常规联合分析
单细胞空间转录分析之Seurat-多样本整合（浅谈空间批次）
单细胞Fixed RNA | 您想知道的问题都在这了！
XenofilteR：PDx 数据分析软件
实用干货 | 单细胞悬液制备实验中各种消化酶类简介
10x Genomics 单细胞技术简介
单细胞转录组之Scanpy - 样本整合分析
单细胞转录组测序分析--再说Seurat
单细胞转录组数据分析||Seurat并行策略

1.背景知识

众所周知，单细胞转录组数据的输入文件是多种多样的，详见:不同文件格式单细胞数据读取流程 https://mp.weixin.qq.com/s/W7szy-Kg6G1N1ENHNRjGiw

除了标准三个文件的格式，就还有很多其他的！

今天来看一个小坑坑。

这个数据是GSM4453576，给的是txt.gz格式，gz是压缩格式，不用解压可以正常读取。

所以正常的读取方式应该是这样：

a = data.table::fread("GSM4453576_P1_exp.txt.gz",data.table = F)
a = tibble::column_to_rownames(a,"V1")
a[1:4,1:4]

然后把这个表达矩阵传递给counts参数即可：

library(Seurat)
seu.obj <- CreateSeuratObject(counts = a, 
                              min.cells = 3, 
                              min.features = 200)
dim(seu.obj)

## [1] 20769  5317

2.发现bug并找到源头

但是呢，后面做质控小提琴图时就会发现，好好的一个样本居然被画在两个小提琴里了？按理来说单样本数据应该是只有一个才对。

VlnPlot(seu.obj,"nCount_RNA")

[图片上传失败...(image-3d653b-1721981237535)]

甚至有的数据是这样（来自学生）

image.jpeg

不仔细看都看不出来横坐标有3个，其中第三个只有一个点(可能是读取的代码有啥毛病吧，谁做错了参考我的作为答案就行，手动狗头)。

image.jpeg

还给了个warning，让设置drop=F，我起初以为这个参数就是解决问题的，实际上它只能解决点的数量太少的”分组“被删掉的问题，例如上图中的”V5381”。并不能解决org.ident的问题。

VlnPlot不指定颜色的时候，就是按照orig.ident分配颜色的，所以问题出在orig.ident上面：

table(seu.obj$orig.ident)

## 
##    1    2 
## 1596 3721

果然，orig.ident分了1和2。正常的单样本数据应该是同一个值，默认是SeuratProject ，如果CreateSeuratObject时设置了project参数的话，那么orig.ident的值就会是设置的值，没啥用，设不设置都一样用。

name为啥会这样呢，是因为CreateSeuratObject默认的样本识别机制：

帮助文档里面有两个参数：

names.field:For the initial identity class for each cell, choose this field from the cell’s name. E.g. If your cells are named as BARCODE_CLUSTER_CELLTYPE in the input matrix, set names.field to 3 to set the initial identities to CELLTYPE.

names.delim:or the initial identity class for each cell, choose this delimiter from the cell’s column name. E.g. If your cells are named as BARCODE-CLUSTER-CELLTYPE, set this to “-” to separate the cell name into its component parts for picking the relevant field.

其中names.field是指定列名里面的第几部分是初始分类(初始分类就是样本) names.delim是分隔符，上面说索的”第几部分“指的是按照某分隔符分割后的”第几部分“，默认值是_。

所以按照帮助文档里的例子就很好理解了：假如列名是BARCODE_CLUSTER_CELLTYPE的格式，默认值就是把按照”“为分隔符(names.delim的默认值为”)拆分出来的第1部分(names.field默认值为1)作为orig.ident！

这样也就理解了它是怎么给我们把一个样本拆成两个的：

library(stringr)
colnames(a) %>%
  str_split_i("_",1) %>%
  table()

## .
##    1    2 
## 1596 3721

和上面table(seu.obj$orig.ident)的结果是呼应的。

所以问题就是列名第一部分不统一。

3.解决办法

有很多种办法可以解决：

例如names.field = 2，忽略第一部分，按照第二部分，但第二部分是真正的barcode，每个细胞都不一样，所以就和正常的、没有前缀的数据会同等处理，都设为一个值。

seu.obj <- CreateSeuratObject(counts = a, 
                              min.cells = 3, 
                              min.features = 200,
                              names.field = 2)
table(seu.obj$orig.ident)

## 
## SeuratProject 
##          5317

再例如names.delim=“,”，逗号可以换成任何一个在列名里不存在的符号，这样就会把全部列名识别为第一个部分。

seu.obj <- CreateSeuratObject(counts = a, 
                              min.cells = 3, 
                              min.features = 200,
                              names.delim = ",")
table(seu.obj$orig.ident)

## 
## SeuratProject 
##          5317

再例如改列名，删掉前缀，不过这种方法有点风险，某些抽风数据会有重复的barcode。

colnames(a) = str_split_i(colnames(a) ,"_",2) 
seu.obj <- CreateSeuratObject(counts = a, 
                              min.cells = 3, 
                              min.features = 200)
table(seu.obj$orig.ident)