10x RNAseq数据
在用cellranger 跑完10xRNaseq数据分析后,会生成一个outs目录,
这个目录下还有一个/filtered_feature_bc_matrix目录,里面放着三个文件:
matrix.mtx.gz
features.tsv.gz
barcodes.tsv.gz
这三个文件的对应关系是什么样的呢?今天我们来一探究竟:
(一) matrix.mtx.gz文件:
image.png(二) features.tsv.gz
image.png多说一句: 如果建库时有CITEseq的信息,会增加表面蛋白基因信息到这个文件的底部:比如这里增加了三个表面蛋白基因.
image.png(三) barcode.tsv.gz文件:
image.png这三个文件的对应关系:
先看一下barcode文件有多少行,就表示有多少barcode,也就是细胞:
le barcodes.tsv.gz |wc
9631 9631 182989
再看一下有多少gene(features)文件有多少行.表示总共有多少个基因.
$ le features.tsv.gz |wc
36601 146404 1479171
就会发现,9631个barcode和36601个基因跟matrix文件中的第三行是对应的,matrix表格中第三行的第三列数字是umi的总数。图一绿色框所示.
matrix.tsv.gz这个文件,前两行以%开头的信息可以忽略,第三行是总数,从第四行开始,每一行是某一个基因(第一列)在某一个barcode(第二列)中的 umi count(第三列)。基因和barcode的数字分别对应于barcodes.tsv.gz和features.tsv.gz的行数。
举例: 比如文件第四行的数字是33509 1 67,就是features.tsv第33509行的这个基因,在barcodes.tsv第1行的barcode里,有67个umi count.
我们来验证一下:
在features.tsv文件中找到第33509行的基因"ISG15",再找到barcode.tsv中第一行的barcode: "AAACCTGGTCCTAGCG-1",然后用这两个值在R中找一下看看是不是结果等于67就可以了.
library(Seurat)
data = Seurat::Read10X(data.dir='/xxx/filtered_feature_bc_matrix')
data$`Gene Expression`['ISG15','AAACCTGGTCCTAGCG-1']
[1] 67
网友评论