美文网首页单细胞测序
单细胞上游软件cellranger从头说

单细胞上游软件cellranger从头说

作者: 小潤澤 | 来源:发表于2020-04-01 23:26 被阅读0次

    对于我们的10x数据上游分析,主要靠cellranger

    拆分bcl

    安装bcl2fastq

    这是它的官网:https://support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software.html
    我们可以参照上面的安装过程
    我们一般下载这一个,然后新建一个文件夹,拖到自己的工作站上


    那么在一个新的文件夹下
    #新建build文件夹
    mkdir build
    #新建install文件夹
    mkdir install
    
    #解压
    unzip bcl2fastq2-v2-20-0-tar.zip
    tar -xvzf bcl2fastq2-v2.20.0.422-Source.tar.gz
    #进入build文件夹
    cd build
    #配置
    /...../bcl2fastq/src/configure --prefix=/home/username/.../bcl2fastq/install
    
    #安装(在build文件夹下)
    make
    make install
    

    其中,build是你配置的文件夹,install是你安装的文件夹,解压后的bcl2fastq是存放源的文件夹
    如果安装过程出错了,那可能是有些依赖库你的系统上没有,那么缺哪个就安装哪个就可以了

    如果嫌麻烦的同学可以利用conda安装

    conda install -c dranew bcl2fastq
    

    然后添加到环境里即可

    cellranger安装(V3)

    安装地址:https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

    按照官网上安装即可
    解压后,这里我偷了个懒,把bin/bcl2fastq这个二进制可执行文件拷贝到了cellranger-3.1.0/cellranger-cs/3.1.0/bin/下



    这样就不用加到环境里面了

    文件下载

    https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/mkfastq#example_workflows


    下载测试的地址如上
    作为测试,可以先下载bcl文件
    wget http://cf.10xgenomics.com/supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz
    tar zxvf cellranger-tiny-bcl-1.2.0
    mv cellranger-tiny-bcl-1.2.0 tiny_bcl
    

    接下来是csv文件
    接着就可以拆分了

    cellranger mkfastq --id=tiny-bcl \
                         --run=tiny_bcl \
                         --csv=cellranger-tiny-bcl-simple-1.2.0.csv
    

    --id表示输出文件路径,
    --run表示输入文件路径,
    --csv即为你下载illumina公司的csv文件
    输出结果在tiny-bcl/out/fastq_path/下


    整合参考基因

    首先我们从Ensemble上下载对应物种的gtf文件和fasta文件

    #filter
    cellranger mkgtf gtf filtered.gtf 
                    --attribute=gene_biotype:protein_coding \
                    --attribute=gene_biotype:IG_LV_gene \
                    --attribute=gene_biotype:IG_V_gene \
                    --attribute=gene_biotype:IG_D_gene \
                    --attribute=gene_biotype:IG_J_gene \
                    --attribute=gene_biotype:IG_C_gene \
                    --attribute=gene_biotype:TR_V_gene \
                    --attribute=gene_biotype:TR_D_gene \
                    --attribute=gene_biotype:TR_J_gene \
                    --attribute=gene_biotype:TR_C_gene
    
    cellranger mkgtf genomic.gtf genomic_coding.filtered.gtf 
                    --attribute=gene_biotype:protein_coding
    

    过滤的目的是除去一些假基因等一些在分析中没有什么用的注释,代码中的gtf指的是过滤前的gtf文件,filtered.gtf 指的是过滤后的gtf文件
    建立索引

    cellranger mkref 
        --genome=GRCz11_coding 
        --fasta=/.../GRCz11_genomic.fa 
        --genes=/.../genomic_coding.filtered.gtf
    

    其中,
    --genome是输出的文件,
    --fasta是你下载参考基因组文件,是以fa结尾的文件,
    --genes是过滤的gtf文件
    貌似我在操作中--genome这个参数加不了绝对路径,不清楚是怎么回事

    count计数

    cellranger主要是利用STAR进行比对,然后在分选计数
    在这里千万注意文件的命名,这里对命名要求是真的严格
    命名:
    存放测序数据fastq文件的文件夹的命名一定要和测序数据的文件命名相同,比方说



    测序数据命名如上图,那么我们取_S1前面的TES42来做该文件夹的命名,如下图所示


    cellranger count 
       --id=output_test 
       --transcriptome=/.../GRCz11_coding/ 
       --fastqs=/.../TES42/ 
       --sample=TES42 
       --force-cells=8000
    

    其中:
    --id是你输出路径文件夹,
    --transcriptome是你之前过滤的参考基因组文件夹,
    --fastqs是测序文件路径,写到存放的文件夹即可,
    --sample要和你存放测序文件夹的文件名相同,
    --force-cells是你的复现细胞数和实验设计有关

    这是运行完的文件:



    那么我们的下游分析(monocle和Seurat)的输入文件在哪里呢?
    在out/filtered_feature_bc_matrix文件夹下



    那么这三个就是下游分析的input:

    参考:https://www.jieandze1314.com/post/cnposts/pre-learn-scrna-3/

    相关文章

      网友评论

        本文标题:单细胞上游软件cellranger从头说

        本文链接:https://www.haomeiwen.com/subject/cpiguhtx.html