Rice RNASeq Analysis Pipeline [1

作者: 生物数据分析笔记 | 来源:发表于2019-06-30 16:21 被阅读0次

    水稻作为禾本科重要的模式植物,其参考基因组版本较多,使用各个版本水稻参考基因组进行有参转录组分析进行基于基因和转录本的表达定量分析又有一些差别。本文计划撰写一个系列文章,描述并记录我近期学习基于STAR和RSEM进行进行水稻RNASeq分析的流程。分享笔记并记录一些分析过程中遇到的一些坑,希望以后遇到相同问题的同学能很快的到解决。
    系列第一篇主要介绍所参考的一些文献,阅读的软件文档,安装软件并下载所需数据。


    参考文献
    参考文献主要简要阅读了一下两篇,其实只是粗略的浏览了一下。
    [1] Sahraeian S M E, Mohiyuddin M, Sebra R, et al. Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis. Nature Communications, 2017,8(1) (doi: 10.1038/s41467-017-00050-4)
    [2] Conesa A, Madrigal P, Tarazona S, et al. A survey of best practices for RNA-seq data analysis. Genome Biology, 2016,17(1). doi: 10.1186/s13059-016-0881-8


    参考文档
    [1] STAR MANUAL
    [2] RSEM MANUAL
    [3] 一个RNA-seq实战-超级简单-2小时搞定!
    [4] 一个植物转录组项目的实战


    软件安装

    下面开始软件安装,为了方便,主要是用conda安装所所需软件。
    首先,为此次分析创建一个环境:

    # 创建环境
    conda create -n rnaseq
    # 进入环境
    source activate rnaseq
    

    然后开始安装软件,质控所需软件选择的是fastqc和multiqc,过滤低质量reads选择的软件是trim-galore。

    # 安装软件
    # 质控
    conda install -y -n rnaseq fastqc multiqc trim-galore
    # 比对
    conda install -y -n rnaseq star
    # 计数
    conda install -y -n rnaseq rsem
    

    下载数据

    数据为水稻花期剑叶的RNASeq数据,大家可以到EBI数据库直接下载FASTQ文件

    EBI数据库批量下载方法参考:从NCBI-SRA和EBI-ENA数据库下载数据

    vim ENA-Aspera-FASTQ.txt
    

    /vol1/fastq/SRR393/002/SRR3932372/SRR3932372_1.fastq.gz
    /vol1/fastq/SRR393/001/SRR3932371/SRR3932371_1.fastq.gz
    /vol1/fastq/SRR393/000/SRR3932370/SRR3932370_1.fastq.gz
    /vol1/fastq/SRR393/009/SRR3932369/SRR3932369_1.fastq.gz
    /vol1/fastq/SRR393/008/SRR3932368/SRR3932368_1.fastq.gz
    /vol1/fastq/SRR393/007/SRR3932367/SRR3932367_1.fastq.gz
    /vol1/fastq/SRR393/002/SRR3932372/SRR3932372_2.fastq.gz
    /vol1/fastq/SRR393/001/SRR3932371/SRR3932371_2.fastq.gz
    /vol1/fastq/SRR393/000/SRR3932370/SRR3932370_2.fastq.gz
    /vol1/fastq/SRR393/009/SRR3932369/SRR3932369_2.fastq.gz
    /vol1/fastq/SRR393/008/SRR3932368/SRR3932368_2.fastq.gz
    /vol1/fastq/SRR393/007/SRR3932367/SRR3932367_2.fastq.gz

    ascp -v -Q -T -l 400m -P33001 -k1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh \
    --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp \
    --file-list ENA-Aspera-FASTQ.txt \
    ./
    

    好了,准备工作基本完成,下一篇文章开始对数据进行质控和过滤。敬请期待。
    希望对大家有所帮助,有误之处也希望大家不吝赐教。


    OS information: Ubuntu 16.04 (Linux 4.4.0-150-generic)
    conda version: conda 4.7.5 (Python 3.6.8)

    相关文章

      网友评论

        本文标题:Rice RNASeq Analysis Pipeline [1

        本文链接:https://www.haomeiwen.com/subject/sahbcctx.html