1.软件安装
需要安装两款软件:edgeR和DESeq2,安装方法也有两种,一种是conda安装,一种是通过R包中的BiocManager安装。
1.1使用conda安装两款软件
edgeR的安装
conda create -n edgeR
#建立edgeR的工作环境
conda activate edgeR
#激活edgeR的工作环境
conda install bioconductor-edger=3.42.4
#安装指定版本的edgeR
DESeq2的安装
conda create -n DESeq2
#建立DESeq2的工作环境
conda activate DESeq2
#激活DESeq2的工作环境
conda install bioconductor-deseq2=1.40.2
#安装指定版本的DESeq2
1.2使用R语言安装两款软件
conda activate R
#激活R
install.packages('Biocmanager')
library(Biocmanager)
#安装并加载Biocmanager
Biocmanager::install('DESeq2')
Biocmanager::install('edgeR')
#安装两款软件
2.分析流程
直接使用edgeR和DESeq2分析较为麻烦,trinity软件包里提供了一个叫run_DE_analysis.pl 的脚本,里面封装了两款软件的分析步骤
2.1安装trinity
conda create -n trinity
#创建trinity的工作环境
conda activate trinity
#激活trinity工作环境
conda install -c bioconda trinity=1.5.1
#安装指定版本的trinity
2.2run_DE_analysis.pl命令解读
perl /path/to/run_DE_analysis.pl --matrix /path/to/genes.counts.matrix
DESeq2 --samples_file /path/to/sample.txt --contrasts contrasts.txt
/path/to/run_DE_analysis.pl:pl脚本在服务器中的位置,如果是使用conda安装则位于~/miniconda3/envs/trinity/bin目录下
--matrix:后接未标准化的表达定量矩阵!一定要是未标准化的。路径可以是相对也可以是绝对
--method:后接分析软件,可以是DESeq2和edgeR
--samples_file:后接样本信息表的绝对或相对位置
--contrasts:后接比对设计表,分为两列,即需要进行比对分析的两组,如KID_S1 BLO_S1。需要注意的是如果未指定该文件的位置,则须与run_DE_analysis.pl脚本处在同一个文件夹下。
2.3运行
写一个shell脚本(run_DE.sh),将run_DE_analysis.pl的详细命令写入其中。
vi run_DE.sh conda activate R
nohup sh run_DE.sh
3.数据处理
3.1 结果解读
trinity中的run_DE_analysis.pl脚本运行结束后会产生四类文件,一类是以.matrix结尾的矩阵文件,一类是以.Rscript结尾的脚本文件,一类是以.pdf结尾的火山图文件,最后一类是以.DE_matrix结尾的结果文件,这个文件就是我们所需要的。若是使用DESeq2做的差异表达分析,则该文件中的第1,7,11列是我们需要的。若是使用edgeR做的差异表达分析,则该文件中的第4,7列是我们需要的。
3.2结果处理
sed '1d' genes.counts.matrix.CB_S1_vs_CB_S2.DESeq2.DE_results | awk 'sqrt($7*$7) > 1 && $11 < 0.05 {print $1"\t"$7"\t"$11}' | sort -k 2n | tail -30
sed '1d'表示删除文件的第一行,sed '1,10d'表示删除第1-10行。
awk 'sqrt($7*$7) > 1 && $11 < 0.05 {print $1"\t"$7"\t"$11}'
因为awk无法识别常见的绝对值格式,所以采取平方再开平方的方式来获得绝对值,并且打印第1,7,11行。这里awk行使了两种功能,即条件规定与打印
sort -k 2n表示让打印出来的第二列以递增方式排列。
tail -30表示显示尾部的30行
以上的命令都是通过管道符‘|’进行传递
网友评论