跨物种RNA-seq标准化及差异表达

作者: 小潤澤 | 来源:发表于2021-06-06 00:50 被阅读0次

跨物种RNA-seq标准化和差异表达R代码剖析
跨物种RNA-seq标准化及差异表达
RNA-seq中的基因表达量计算和表达差异分析
scRNA-seq数据差异基因表达分析的有效方法有哪些？
常用差异表达软件所用的标准化方法及计算P值所用的检验方法
如何定义两物种之间基因表达量的保守性
转录组分析5——差异表达分析
RNA-seq聚类图
标准化方法
R语言DESeq2基因差异表达分析

前言

对跨物种的RNA-seq进行标准化和差异分析已知是一个问题，而目前对此类问题的相关研究还比较少，有用RPKM进行各物种之间标准化的，也有基于count文件利用DESeq2的标准化方法对各物种进行标准化的，而今天介绍的方法来自于文章：《A statistical normalization method and differential expression analysis for RNA-seq data between different species》

跨物种基因

首先，对于同一物种相同基因的比较，由于其基因长度和功能都一样，因此可以直接比较；而对于跨物种的RNA-seq比较来说，一般选取直系同源的基因来比较

跨物种RNA-seq基本模型

首先，作者定义基本模型如下：

其中：

E(Xgkt) 代表物种 t 中文库 k 基因 g 基因观测到的count值的期望（均值；上式右边可以看作为对 μgk 求均值的过程，因此式子左边用 E(Xgkt) 表示，另外一层意思参照下面的泊松分布模型）；

Xgkt 代表物种 t 中文库 k 基因 g 观测到的count

μgkt 代表物种 t 中文库 k 基因 g 的真实表达水平；

Lgkt 代表物种 t 中文库 k 基因 g 的基因长度；

St 代表

Nt 代表物种 t 中，文库 k 的所有基因count数总和；

上面的模型建立了物种 t 中文库 k 基因 g 的真实表达水平与观测值之间的关系，有助于下一步的标准化及差异分析

跨物种RNA-seq标准化及差异分析

首先对于两个物种的直系同源基因的比较，我们有如下假设：

那么H0对应该基因没有差异表达，H1对应该基因发生了差异表达；之前我们说 Xgkt 代表物种 t 中文库 k 基因 g 观测到的count，那么事实上对于其中两个物种的直系同源基因，我们需要对每一个基因的真实表达值（count值）假设一个分布，方便后续的假设检验，作者这里利用的是泊松分布
因此定义泊松分布的参数：

这里的泊松分布模型可以理解为对 Xgkt 做多次测量，最终对 Xgkt 做的一个频率分布（横坐标为 Xgkt ，纵坐标为频率）服从泊松分布

基于上面的模型，我们可以对H0做恒等变换，所以我们的假设问题就转变成为了：

所以满足H0的直系同源基因，我们认为是没有差异的；否则就是有差异的

跨物种RNA-seq差异分析p值计算

又由于当我们获得实际测的数据后，对于两个物种来说，满足：

即 Xgk1 + Xgk2 等于一个定值，因此我们可以引入伯努利实验的思想，构建二项分布：

Xgk1 代表物种 t 中文库 k 基因 g 观测到的count

xgk1 代表从 1—ngk 的count数

其中：

则p值计算如下：

所谓p值，本质上就是比较括号内前一项比后一项大的概率

Xgkt 表示实际观测到的在物种 1 中文库 k 基因 g 观测到的count数

xgk1 代表从 1—ngk 的count数；即计算 xgk1 取从 1—ngk 的count数时，（1）比（2）大的概率，即为p值

最后附上该文章的R包链接：SCBN

跨物种RNA-seq标准化和差异表达R代码剖析
前言前文跨物种RNA-seq标准化及差异表达[https://www.jianshu.com/p/1263612...
跨物种RNA-seq标准化及差异表达
前言对跨物种的RNA-seq进行标准化和差异分析已知是一个问题，而目前对此类问题的相关研究还比较少，有用RPKM...
RNA-seq中的基因表达量计算和表达差异分析
RNA-seq中的基因表达量计算和表达差异分析原文链接：RNA-seq中的基因表达量计算和表达差异分析-生物知识...
scRNA-seq数据差异基因表达分析的有效方法有哪些？
scRNA-seq数据差异基因表达分析的有效方法有哪些？我们知道RNA-seq即转录组测序，是某个物种或者特定细...
常用差异表达软件所用的标准化方法及计算P值所用的检验方法
常用差异表达软件所用的标准化方法及计算P值所用的检验方法
如何定义两物种之间基因表达量的保守性
前言最近看到一篇文章，是关于利用RNA-seq来讨论两个物种之间直系同源基因的表达保守性的文章（矩阵为标准化后的...
转录组分析5——差异表达分析
差异表达分析内容：• 基因表达量的标准化方法及可视化➢ counts，RPKM，FPKM，TPM➢ PCA图、热图...
RNA-seq聚类图
标准化方法RNA-seq多Run合并、VST标准化、PCA、差异分析最全的R语言聚类树形图画法我的一个例子
标准化方法
表达矩阵标准化是差异分析的第一步，关于为什么需要标准化及常用的标准化的方法有哪些的一篇笔记。参考文章为什么需要...
R语言DESeq2基因差异表达分析
经过表达定量后，我们已经得到了基因的表达量矩阵，差异表达分析通常是RNA-seq分析的第一步。差异基因表达分析通...