美文网首页rna_seq
单细胞转录组之从fastq到counts

单细胞转录组之从fastq到counts

作者: 青青青山 | 来源:发表于2022-05-09 22:48 被阅读0次

    1 原始数据下载及转换

    从GEO下载原始数据需要使用官方工具SRA-tools,安装SRA-tools

    conda install -y sra-tools
    

    1.1 原始数据下载

    进入NCBI SRA数据库,输入GSE编号,选择要下载的数据,下载Accession List,至rawdata文件夹.

    在rawdata文件夹中,使用SRA-tools中prefetch来下载文件。

    cat SRR_Acc_List.txt |xargs -I [] echo 'nohup prefetch [] &'>prefetch.sh
    bash prefetch.sh
    

    运行上述命令后,会在后台下载数据。
    或者

    prefetch --option-file SRR_Acc_List.txt 
    

    下载完成后会在目录下得到包含SRA的文件夹


    1.2 SRA批量转换为fastq

    在rawdata文件夹下,运行批量转换脚本

    ##-e:线程数(dflt=6) --include-technical:包含technical reads -b:文件缓存区(dflt=1MB) -c:动态缓存(dflt=10MB) -m:排序的内存限制(dflt=100MB)
    
    ls SRR*/*sra |while read id;do (fasterq-dump --split-files -e 10 --include-technical -b 100MB -c 200MB -m 2000MB $id);done 
    

    运行完毕后,每个sra文件会解压出3个fq文件,如下所示

    $ ls -lh *gz |cut -d" " -f 5- 
    
    985M  21:45 SRR13924917_1.fastq.gz
    2.2G  21:45 SRR13924917_2.fastq.gz
    6.7G  21:45 SRR13924917_3.fastq.gz
    
    987M  21:59 SRR13924918_1.fastq.gz
    2.2G  21:59 SRR13924918_2.fastq.gz
    6.7G  21:59 SRR13924918_3.fastq.gz
    

    这里可能出现三种情况

    • 从sra拆分的fastq文件只有一个:单端测序
    • 从sra拆分的fastq文件有两个:双端测序
    • 从sra拆分的fastq文件有三个:双端测序read+index

    详见以下说明


    从这3个fq文件的大小就可以看得出来它们的格式,分别是I1,R1,和R2。

    2 Cell Ranger流程

    Cell Ranger是10X Genomics为单细胞分析专门打造的分析软件,直接对10X的下机数据进行基因组比对、定量、生成单细胞矩阵、聚类以及其他的分析等。

    为了在下游分析中让Cell Ranger指定识别我们的fastq文件进行下游分析,使用官网推荐的命名格式进行命名


    所以要对之前得到的fastq文件,批量改名。

    ##重命名脚本1
    ls *_1.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_I1_001.fastq.gz);done
    ls *_2.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_R1_001.fastq.gz);done
    ls *_3.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_R2_001.fastq.gz);done
    
    ##重命名脚本2
    cat SRR_Acc_List.txt | while read id ;do (mv ${id}_1*.gz ${id}_S1_L001_I1_001.fastq.gz;mv ${id}_2*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${id}_3*.gz ${i}_S1_L001_R3_001.fastq.gz);done
    

    2.1 Cell Ranger的下载与安装

    进入CellRanger官网,点击下载,如果是第一次进入下载界面,需要填写一些基本信息,填写完后点击Continue to Download即可。

    ##LINUX版本下载
    curl -o cellranger-6.1.2.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-6.1.2.tar.gz?Expires=1652062386&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci02LjEuMi50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NTIwNjIzODZ9fX1dfQ__&Signature=A9adfYE-gTZugUA8HDIt7K9BaLs72lc8dU3X-Oqj0NMMA-zG5POwSSi9SsBME1pOX8iGyEI1gknodSfFWcf2oBEyF6gZLPxFoFQ71ATS1Z7pQaTWzAVzbnDXj4swuMqX-OM~zngTrKxqDQ9UPcuvTriMCmc2LYVgMjuNR5kxGWKfI1xCXyMpimKNlpttw-~w-xqBGwi2PQ6exgF1oUIAVEeLnl~pd6hm6Ia8IMJEJmpuLDlBVKHzmruimXSoZxIaSphdnSglYqGBltcYHdEUVLZ1LtgwQKvEvlaEo8wtA7IVX9WWB~N2zqiLW0BvHucQUiQAtjYQwfCdclbkhor2Xg__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
    
    • 安装包下载完成后使用tar命令进行解压。
    tar -xzvf cellranger-6.1.2.tar.gz
    
    • 把Cell Ranger添加到系统环境。
    vim ~/.bashrc
    ##将下方语句添加到.bashrc中,注意修改路径
    export PATH=~/t010328/download/cellranger-6.1.2:$PATH
    
    • 更新一下.bashrc文件。
    source ~/.bashrc
    
    • 测试是否正确安装
    cellranger testrun --id=tiny
    ##显示Pipestance completed successfully!则成功
    

    2.2 参考基因组下载

    CellRanger官网提供了人和小鼠的参考基因组。

    ##Human reference (GRCh38),Download – 11 GB – md5sum: dfd654de39bff23917471e7fcc7a00cd
    curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
    
    ##Mouse reference dataset,Download – 9.7 GB – md5sum: 886eeddde8731ffb58552d0bb81f533d
    curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
    

    2.3 CellRanger定量

    编写一个cellranger运行脚本,命名为run-cellranger.sh。内容如下:

    ##db为参考基因组目录,fq_dir为原始fastq文件目录,--localcores为最大使用线程数,--nosecondary为不进行聚类分群分析,--expect-cells为指定最大细胞数
    db=~/t010328/download/cellranger/refdata-gex-GRCh38-2020-A;  
    ls $db 
    fq_dir=~/t010328/download/10X/raw  
    echo '
    cellranger count --id=$1 \  
    --localcores=20 \  
    --transcriptome=$db \  
    --fastqs=$fq_dir \  
    --sample=$1 \  
    --nosecondary \  
    --expect-cells=5000 ' >run-cellranger.sh
    

    批量运行run-cellranger.sh进行比对定量。

    nohup cat SRR_Acc_List.txt |while read id;do ( bash run-cellranger.sh $id  );done &
    

    2.4 定量结果

    成功运行之后会生成sample目录(脚本中id参数),最终结果都保存在sample/outs中。


    analysis:cellranger聚类的结果

    filtered_feature_bc_matrix:过滤后的单细胞表达矩阵(后续可以对接到seurat包)

    raw_feature_bc_matrix:过滤前的单细胞表达数据

    possorted_genome_bam.bam:单细胞比对的bam文件,其中包含了每个reads的信息

    web_summary.html:报告网页(单细胞定量后的报告,包括检测到的细胞数、基因数、UMI、分群等等)

    参考来源
    https://www.jianshu.com/p/0b32fe7a2859
    https://mp.weixin.qq.com/s/xvXtgzWAFpw-b00HBUVMCg

    THE END

    相关文章

      网友评论

        本文标题:单细胞转录组之从fastq到counts

        本文链接:https://www.haomeiwen.com/subject/lqmrurtx.html