美文网首页单细胞测序生信星球培训第133期
Day3-单细胞数据fastq及cellranger

Day3-单细胞数据fastq及cellranger

作者: Sun506 | 来源:发表于2022-04-17 16:15 被阅读0次

    SRA-fastq-cellranger

    1.conda安装和管理

    #下载Miniconda3安装
    wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh 
    3-latest-Linux-x86_64.sh
    # 安装Miniconda3:安装过程只需要输入 yes 或者按 Enter
    bash Miniconda3-latest-Linux-x86_64.sh
    # 更新系统环境
    source ~/.bashrc
    # 判断miniconda3安装是否成功
    conda --help
    

    2.设置镜像

    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
    
    conda config --set show_channel_urls yes
    conda config --set channel_priority flexible
    
    # 查看当前配置的channel
    cat ~/.condarc
    

    3.创建环境

    # 创建名为Cellranger的软件环境来安装相关软件
    # 安装一个python=3的软件作为依赖
    conda create -y -n Cellranger python=3
    
    # 查看当前conda环境
    conda info --e
    
    # 每次运行前,激活创建的小环境Cellranger,成功激活进入小环境,即可安装软件
    conda activate Cellranger# 激活
    conda deactivate # 退出小环境
    
    # 查看当前环境的python版本
    python --version
    
    # 删除环境
    conda remove -n Cellranger--all
    

    4.conda安装相关软件

    # 可以一次安装一个软件,也可以一次安装多个软件
    conda install -y sra-tools
    
    # 运行以下语句,不出现报错表示安装成功
    fastq-dump --help
    # 更新软件:
    conda update sra-tools
    # 安装指定版本的软件
    conda install -y cellranger=2.10.7
    # 卸载安装的软件
    conda  remove sra-tools
    # 软件被conda安装在哪
    which sra-tools
    # 在当前小环境下,列举所有安装软件。
    conda list
    

    5.Fastq

    cd 目标文件夹
    for f in SRR*
    do
    nohup fastq-dump --gzip --split-3 $f &
    done
    

    其中主要使用的参数:
    –gzip:将生成的结果fastq文件进行压缩
    –split-3:-3实际上指的是分成3个文件。

    • 如果结果发现只有一个文件,说明数据不是双端(第三个文件太大会覆盖前两个);
    • 如果结果有两个文件,说明是双端文件并且数据质量比较高(没有低质量的reads或者长度小于20bp的reads);
    • 如果结果有三个文件,说明是双端文件,但是有的数据质量不高,存在trim的结果,第三个文件的名字一般是:<srr_id>.fastq, 而且文件也不大,基本可以忽略。
      其中一个文件是测序reads,另一个是UMI+Barcode文件,这两个文件可以用于cellranger。

    不过最后我只生成了一个文件,然后通过网上查找资料发现,单细胞用--split-files

    for f in SRR*
    do
    nohup fastq-dump --gzip --split-files $f &
    done
    

    情况不对就kill all
    ps -ef | grep fastq-dump | awk '{print $2}' | while read id;do kill $id;done
    然后顺利生成三个文件了I1、R1、R2(index、barcode+UMI、测序reads)。但是如果还不行的话,推荐建议使用ascp直接从ENA下载fastq
    RNA-Seq数据用aspera高效批量下载(万事开头难) (qq.com)

    6.修改名称

    image.png
    # 比如,将原来的SRR7692286_1.fastq.gz改成SRR7692286_S1_L001_I1_001.fastq.gz
    # 依次类推,将原来_2的改成R1,将_3改成R2
    vi ACC_list.txt
    #把SRR号复制进去,创建Acc_list.txt
    cat  ACC_list.txt | while read i ;do (mv ${i}_1*.fastq.gz ${i}_S1_L001_I1_001.fastq.gz;mv ${i}_2*.fastq.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_3*.fastq.gz ${i}_S1_L001_R2_001.fastq.gz);done
    

    最后长这个样子


    image.png

    7.cellranger安装

    wget -O cellranger-6.1.2.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-6.1.2.tar.gz?Expires=1650212606&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci02LjEuMi50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NTAyMTI2MDZ9fX1dfQ__&Signature=NIczL~Am1NcvCv3kfAJ4ds-BwPGBQ68il7uXJ8k-2Le~vqh4EVGPywaMwS2Zw6yjOQZmsA4vYTyOzjZGpMKtxcMzcMWEE3C1tJGkLN-a0lpdhCD1bDfDrBVdxBeD0FhM112OiMeRlKopyk59X0KFSYiua4SxMY0jqYwBnvrkoXXfD3d7mB~LFIsETpZPydrsHbkyXQbRmxBSnjtK7qS8Yrl-M6Aq-q2toGPZ3zt4kcWGNO5LZHtbHR1B0-HDCv~ycQ1jRmxviSI06XjGUCRVQ9us4wvOHd1kEAje9tOARxPRHfuyJHUF6sdHz9S1LxNu9ysCtcIEeonlaaHGZ93Dbw__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
    #解压缩
    tar -xvzf cellranger-6.1.2.tar.gz
    rm cellranger-6.1.2.tar.gz
    # 添加环境变量
    echo 'export PATH="/mnt/SSS/cellranger/cellranger-6.1.2:$PATH' ~/.bashrc
    source ~/.bashrc
    

    8.参考基因组下载

    可直接下载10xgenomics官网提供的已构建好的索引文件,否则需要自己构建(使用cellranger mkgtf命令)

    #人类GRCh38  #
    curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
    #小鼠   Mouse reference dataset required for Cell Ranger.
    curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
    #小鼠和人
    curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
    
    #解压
    tar -zxvf refdata-gex-GRCh38-2020-A.tar.gz
    tar -zxvf refdata-gex-mm10-2020-A.tar.gz
    tar -zxvf refdata-gex-GRCh38-and-mm10-2020-A.tar.gz
    

    10.cellranger count

    cd /mnt/SSS/database/GSE155513RAW
    #调取cellranger
    export PATH=/mnt/SSS/cellranger/cellranger-6.1.2:$PATH
    cellranger
    cellranger count --id=ZsGreenPosi_Ldlr_KO_0_week_WD \
    --transcriptome=/mnt/reference/refdata-gex-mm10-2020-A \
    --fastqs=/mnt/SSS/database/GSE155513RAW \
    --sample=SRR12363105.1 \
    --localcores=2 #设置2个核
    
    image.png
    然后就报错了,说是找不到fastq。仔细检查各个参数都没发现问题。唯一有问题的就是命名了。然后看了别人成功的案例,唯一的区别就是别人没有小数点。然后我尝试一下,删掉小数点,竟然成功了。
    image.png
    那就让它在后台慢慢运行
    nohup cellranger count --id=ZsGreenPosi_Ldlr_KO_0_week_WD \
    --transcriptome=/mnt/reference/refdata-gex-mm10-2020-A \
    --fastqs=/mnt/SSS/database/GSE155513RAW \
    --sample=SRR12363105 \
    --localcores=30 &
    

    今天又是披襟斩棘的一天,祝好。

    参考资料:
    单细胞实战(二) cell ranger使用前注意事项 - 云+社区 - 腾讯云 (tencent.com)
    https://www.jianshu.com/p/11c4537feb4b

    相关文章

      网友评论

        本文标题:Day3-单细胞数据fastq及cellranger

        本文链接:https://www.haomeiwen.com/subject/yvakertx.html