美文网首页单细胞转录组生信笔记
10x RNAseq Cellranger结果的对应关系:

10x RNAseq Cellranger结果的对应关系:

作者: 11的雾 | 来源:发表于2022-05-16 10:12 被阅读0次

    10x RNAseq数据

    在用cellranger 跑完10xRNaseq数据分析后,会生成一个outs目录,

    这个目录下还有一个/filtered_feature_bc_matrix目录,里面放着三个文件:

    matrix.mtx.gz

    features.tsv.gz

    barcodes.tsv.gz

    这三个文件的对应关系是什么样的呢?今天我们来一探究竟:

    (一) matrix.mtx.gz文件:
    image.png
    (二) features.tsv.gz
    image.png

    多说一句: 如果建库时有CITEseq的信息,会增加表面蛋白基因信息到这个文件的底部:比如这里增加了三个表面蛋白基因.

    image.png
    (三) barcode.tsv.gz文件:
    image.png
    这三个文件的对应关系:

    先看一下barcode文件有多少行,就表示有多少barcode,也就是细胞:

    le  barcodes.tsv.gz |wc
    
      9631    9631  182989
    

    再看一下有多少gene(features)文件有多少行.表示总共有多少个基因.

    $ le features.tsv.gz |wc
    
      36601  146404 1479171
    

    就会发现,9631个barcode和36601个基因跟matrix文件中的第三行是对应的,matrix表格中第三行的第三列数字是umi的总数。图一绿色框所示.

    matrix.tsv.gz这个文件,前两行以%开头的信息可以忽略,第三行是总数,从第四行开始,每一行是某一个基因(第一列)在某一个barcode(第二列)中的 umi count(第三列)。基因和barcode的数字分别对应于barcodes.tsv.gz和features.tsv.gz的行数。

    举例: 比如文件第四行的数字是33509 1 67,就是features.tsv第33509行的这个基因,在barcodes.tsv第1行的barcode里,有67个umi count.

    我们来验证一下:

    在features.tsv文件中找到第33509行的基因"ISG15",再找到barcode.tsv中第一行的barcode: "AAACCTGGTCCTAGCG-1",然后用这两个值在R中找一下看看是不是结果等于67就可以了.

    library(Seurat)
    data = Seurat::Read10X(data.dir='/xxx/filtered_feature_bc_matrix')
    
    data$`Gene Expression`['ISG15','AAACCTGGTCCTAGCG-1']
    [1] 67
    

    相关文章

      网友评论

        本文标题:10x RNAseq Cellranger结果的对应关系:

        本文链接:https://www.haomeiwen.com/subject/voiiurtx.html