Bulk RNAseq上游比对1:大致流程与conda环境 - 简书 (jianshu.com)
Bulk RNAseq上游比对2:下载数据、质控 - 简书 (jianshu.com)
Bulk RNAseq上游比对3:比对mapping - 简书 (jianshu.com)
要点一、大致流程
如上流程图所示,一般包括三大步骤:下载数据--质控--比对
1、下载数据
主要包括两类数据:一是测序fastq.gz数据,二是参考基因组及相关数据集
1.1 fastq.gz
- 这里主要是指挖掘公共数据库的fastq.gz数据集;
- 按照下载速度,依次推荐ascp的aspera途径、wget ftp方式、prefetch下载.sra文件三种方法。
1.2 参考数据
- 基因组fasta文件(optional)
- 基因组gtf注释文件
- 比对软件的索引文件。
虽然可以自己构建索引,这里推荐直接使用refgenie:参考基因组下载商店 - 简书 (jianshu.com)建立好的各个比对软件的索引文件。其实,gtf文件与fasta文件也是可以从refgenie下载。
2、质控
这一步主要使用trim-galore
软件对fastq.gz的reads测序文件进行质控、过滤,主要包括以下三个过程:
- (1)reads的低质量测序碱基;
- (2)reads的接头序列;
- (3)经过上述两个步骤后,再进一步过滤长度过短的reads
具体可参考帮助文档:https://github.com/FelixKrueger/TrimGalore/blob/master/Docs/Trim_Galore_User_Guide.md
3、比对
虽然各个比对软件(hisat2, star, bowtie2, bwa)具体调用方式不同,但基本是如下三个过程
- (1)fastq.gz比对至参考基因组,生成sam文件
- (2)使用samtools,sam转为bam
- (3)featurecount从bam文件提取样本的基因表达信息
值得注意的是salmon软件的比对方式是基于转录本信息,可使用tximport R包定量基因表达信息
要点二、conda环境
结合个人使用经验与习惯,建立的两个conda环境
1、环境1:download
conda activate download
#ascp的aspera高速下载
conda install -c hcc aspera-cli
#prefech下载sra文件
conda install -c bioconda sra-tools
# 基因组下载商店
# conda install refgenie
# QC质控
conda install -c bioconda trim-galore
conda install -c bioconda multiqc
2、环境2:fq_map
conda activate fq_map
#不同类型的比对软件
conda install -c bioconda hisat2
conda install -c bioconda star=2.7.1a
conda install -c bioconda bwa
conda install -c bioconda bowtie2
conda install -c bioconda salmon=1.5.2
# 汇总比对结果
conda install -c bioconda multiqc
# 基因组下载商店
# conda install refgenie
# sam2bam转换
conda install -c bioconda samtools
# 基因表达定量
conda install -c bioconda subread
如上,默认下载软件的最新版本即可,但结合尝试、探索,star与salmon比对软件的版本信息必须与构建对应索引文件的软件版本一致(refgenie构建)。因此安装了上述指定的版本。
网友评论