转录组数据差异表达分析

作者: 路人里的路人 | 来源:发表于2023-07-18 22:39 被阅读0次

TCGA差异分析——limma, DEseq2, edgeR
1.转录组 2.高通量测序 3.转录组数据分析 4.差异表达基因
在线作图|在线做有/无生物学重复的差异分析
2020-08-31转录组学习-Day1
【转录组学】如何进行一步到位的fastq到差异分析，kallis
转录组不求人系列(六):limma包分析转录组芯片数据
第七步-ballgown的相关参数
RNA-Seq分析|RPKM, FPKM, TPM, 计算对比
单细胞转录组差异表达分析——SCDE
1.转录组 | 上游分析（数据下载，比对，计数）

1.软件安装

需要安装两款软件：edgeR和DESeq2，安装方法也有两种，一种是conda安装，一种是通过R包中的BiocManager安装。

1.1使用conda安装两款软件

edgeR的安装

conda create -n edgeR
#建立edgeR的工作环境
conda activate edgeR
#激活edgeR的工作环境
conda install bioconductor-edger=3.42.4
#安装指定版本的edgeR

DESeq2的安装

conda create -n DESeq2
#建立DESeq2的工作环境
conda activate DESeq2
#激活DESeq2的工作环境
conda install bioconductor-deseq2=1.40.2
#安装指定版本的DESeq2

1.2使用R语言安装两款软件

conda activate R
#激活R
install.packages('Biocmanager')
library(Biocmanager)
#安装并加载Biocmanager
Biocmanager::install('DESeq2')
Biocmanager::install('edgeR')
#安装两款软件

2.分析流程

直接使用edgeR和DESeq2分析较为麻烦，trinity软件包里提供了一个叫run_DE_analysis.pl 的脚本，里面封装了两款软件的分析步骤

2.1安装trinity

conda create -n trinity
#创建trinity的工作环境
conda activate trinity
#激活trinity工作环境
conda install -c bioconda trinity=1.5.1
#安装指定版本的trinity

2.2run_DE_analysis.pl命令解读

perl /path/to/run_DE_analysis.pl --matrix /path/to/genes.counts.matrix 
DESeq2 --samples_file /path/to/sample.txt --contrasts contrasts.txt

/path/to/run_DE_analysis.pl：pl脚本在服务器中的位置，如果是使用conda安装则位于~/miniconda3/envs/trinity/bin目录下
--matrix：后接未标准化的表达定量矩阵！一定要是未标准化的。路径可以是相对也可以是绝对
--method：后接分析软件，可以是DESeq2和edgeR
--samples_file：后接样本信息表的绝对或相对位置
--contrasts：后接比对设计表，分为两列，即需要进行比对分析的两组，如KID_S1 BLO_S1。需要注意的是如果未指定该文件的位置，则须与run_DE_analysis.pl脚本处在同一个文件夹下。

2.3运行

写一个shell脚本（run_DE.sh），将run_DE_analysis.pl的详细命令写入其中。
vi run_DE.sh $\longrightarrow$ conda activate R $\longrightarrow$ nohup sh run_DE.sh

3.数据处理

3.1 结果解读

trinity中的run_DE_analysis.pl脚本运行结束后会产生四类文件，一类是以.matrix结尾的矩阵文件，一类是以.Rscript结尾的脚本文件，一类是以.pdf结尾的火山图文件，最后一类是以.DE_matrix结尾的结果文件，这个文件就是我们所需要的。若是使用DESeq2做的差异表达分析，则该文件中的第1，7，11列是我们需要的。若是使用edgeR做的差异表达分析，则该文件中的第4，7列是我们需要的。

3.2结果处理

sed '1d' genes.counts.matrix.CB_S1_vs_CB_S2.DESeq2.DE_results | awk 'sqrt($7*$7) > 1 && $11 < 0.05 {print $1"\t"$7"\t"$11}' | sort -k 2n | tail -30

sed '1d'表示删除文件的第一行，sed '1,10d'表示删除第1-10行。

awk 'sqrt($7*$7) > 1 && $11 < 0.05 {print $1"\t"$7"\t"$11}'

因为awk无法识别常见的绝对值格式，所以采取平方再开平方的方式来获得绝对值，并且打印第1，7，11行。这里awk行使了两种功能，即条件规定与打印
sort -k 2n表示让打印出来的第二列以递增方式排列。
tail -30表示显示尾部的30行
以上的命令都是通过管道符‘|’进行传递

网友评论

本文标题：转录组数据差异表达分析

本文链接：https://www.haomeiwen.com/subject/fewgudtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

转录组数据差异表达分析

1.软件安装

1.1使用conda安装两款软件

1.2使用R语言安装两款软件

2.分析流程

2.1安装trinity

2.2run_DE_analysis.pl命令解读

2.3运行

3.数据处理

3.1 结果解读

3.2结果处理

相关文章

TCGA差异分析——limma, DEseq2, edgeR

1.转录组 2.高通量测序 3.转录组数据分析 4.差异表达基因

在线作图|在线做有/无生物学重复的差异分析

2020-08-31转录组学习-Day1

【转录组学】如何进行一步到位的fastq到差异分析，kallis

转录组不求人系列(六):limma包分析转录组芯片数据

第七步-ballgown的相关参数

RNA-Seq分析|RPKM, FPKM, TPM, 计算对比

单细胞转录组差异表达分析——SCDE

1.转录组 | 上游分析（数据下载，比对，计数）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读