美文网首页rna_seq
RNASeq实战练习-软件安装及数据下载

RNASeq实战练习-软件安装及数据下载

作者: 小小白的jotter | 来源:发表于2021-08-12 15:32 被阅读0次

    软件安装

    新建 rnaseq 分析环境

    conda env list
    conda create -n rnaseq -y
    

    安装软件

    # 激活rnaseq分析环境
    conda activate rnaseq
    
    # 安装所需的软件
    conda install -c biobuilds sra-tools -y
    conda install -c hcc aspera-cli -y
    conda install -c bioconda gffread -y
    conda install -c bioconda trim-galore -y
    conda install -c bird fastqc -y
    conda install -c bioconda multiqc -y
    conda install -c bioconda hisat2 -y
    conda install -c bioconda samtools -y
    conda install -c bioconda subread -y
    

    有时候用 conda 直接搜索搜索不到,可以百度 conda 软件名查找安装方式

    image-20210812140243741

    转录组数据下载

    实战使用数据NCBI登录号:PRJNA480638。

    惨痛教训,刚开始不懂做练习的时候最好用别人已经做过没有问题的数据,不然中间有哪一步出问题根本不知道是自己参数设置不对,还是下载的数据有问题。。。

    下载方式一:sra数据下载

    NCBI搜索登录号:PRJNA480638,勾选搜索结果,下载包含转录组数据下载地址的 excel 文件

    image-20210729132012168

    打开下载的 excel 文件找到下载文件路径在 Windows 中下载

    image-20210729132358193

    winscp 将 SRA 数据上传到服务器 /home/jiamj/analysis/raw 目录下

    image-20210730100951072

    fastq-dump 将 sra 文件转换为 fastq 格式

    转录组(三):了解 fastq 测序数据:https://www.cnblogs.com/fhn7/articles/12355025.html

    #确认是否在rnaseq分析环境中,否则激活
    conda activate rnaseq
    
    # 进入到存放文件的目录
    cd /home/jiamj/analysis/raw
    
    批量将sra文件转换为fastq格式
    for i in 39 40 41 42 43 44 
    do
    fastq-dump --gzip --split-3 -O /home/jiamj/analysis/raw SRR75089${i}.1
    done
    

    下载方式二:aspera下载数据(使用)

    后续分析用的是该方式下载的数据。

    ENA 数据库: https://www.ebi.ac.uk/ena/browser/home

    ENA 数据库输入 PRJNA480638 搜索

    image-20210729160707100

    输入登录号查找,选择自己想要的信息。可以看物种分组和文件大小

    image-20210729161423432

    点击 TSV 下载,filereport_read_run_PRJNA480638_tsv.txt

    image-20210729161954989

    将 fastq_aspera 整理成下面的文件,命名为 aspera_download.txt

    image-20210729171223341

    winSCP 将这 aspera_download.txt 上传到服务器 /home/jiamj/analysis/rnadata 目录下

    Aspera下载安装使用:https://www.jianshu.com/p/fed19a8821eb

    Aspera工具安装与使用:https://www.jianshu.com/p/a6ac81456c01

    # 先看看 rnaseq 环境激活没有,没有激活就激活分析环境
    # conda activate rnaseq 
    # 查看是否安装成功
    ascp -h
    # 查找密钥
    which ascp
    
    image-20210729173258753

    binbin后面的内容换成etc/asperaweb_id_dsa.openssh即为密钥地址

    /home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh
    
    参数 说明
    -l 最大传输速率
    -i 密钥地址,/home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh,用conda安装可以看上面操作
    -P 提供SSH port,一般是33001
    -Q Enable fair transfer policy
    -k 断点续传,一般设置为1
    -T 取消加密

    批量下载

    ascp -k 1 -QT -l 100m -P33001 -i /home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list aspera_download.txt . 
    # .表示当前文件夹
    

    数据完整性检验

    windows 将 filereport_read_run_PRJNA480638_tsv.txt 中的 fastq_md5 整理出来记为 md5.txt

    image-20210729175527689

    将这个文件上传到服务器 /home/jiamj/analysis/rnadata 目录

    md5sum -c md5.txt进行数据检查的时候会报错,因为在 Windows 系统下编辑的文件,换行符回车的格式为 ’\r\n’,在 linux 系统下,回车的格式为 ’\n’,在 Windows 下编辑的文本文件在上传至 linux 服务器时,回车 ’\r\n’ 就显示成 ^M+’\n’

    问题解决_md5sum检验提示没有该文件 https://blog.csdn.net/mudong0052/article/details/108931285

    sed 's/\r//g' md5.txt | md5sum -c -
    
    image-20210730100902652

    参考基因组下载

    ensembl plant 数据库,点击进去拟南芥的链接

    image-20210702161500551

    点进上图红框,右键复制所要下载文件的地址链接地址

    # 在analysis目录下创建一个ref文件夹存放参考基因组文件
    mkdir ref
    
    #进入ref目录下
    cd ref
    
    #下载
    wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-51/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
    wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-51/gff3/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.51.gff3.gz
    
    # 解压缩
    gunzip *.gz
    
    image-20210812141412669

    相关文章

      网友评论

        本文标题:RNASeq实战练习-软件安装及数据下载

        本文链接:https://www.haomeiwen.com/subject/tsylbltx.html