基因的差异表达,即发现一组在正常样本和患病样本中表达不同的基因。
差异基因的筛选方法
1、倍数变化(fold change)
最简单的是阈值法,用倍数分析基因表达水平差异,即计算基因在两个条件下表达水平的比值(癌症和正常),确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因。
-
差异基因的上调和下调
-
我们一般使用
log2 (fold change)
。当expr(A) < expr(B)时,B对A的fold change就大于1,log2 fold change就大于0(见下图),B相对A就是上调; -
当expr(A) > expr(B)时,B对A的fold change就小于1,log2 fold change就小于0;
-
通常为了防止取log2时产生NA,我们会给表达值加1(或者一个极小的数),也就是log2(B+1) - log2(A+1).
-
通常选择2~3倍作为阈值,但对于低表达的基因,3倍也是噪音,那些高表达的基因,1.1倍都是生物学显著了。更重要的没有考虑到组内变异,没有统计学意义。
2、统计检验
最常用的T-test、ANOVA(方差分析)或者称为F检验。
对于
基因芯片
的数据而言,由于样本服从正态分布
,所以可以用t-test(双处理)或anova分析(多处理以上)。
二代测序
RNA-Seq
它的抽样过程是离散的,结果是count,服从泊松分布,样本间的差异是服从负二向分布
.
- 方差分析(ANOVA)和线性回归分析(regression)都是同一时期发展的两套紧密相连的理论。方差分析考量的是离散型自变量(因子)对连续型应变量(响应变量)的模型分析,而线性回归分析只要求响应变量是连续的,对于自变量无要求。如果响应变量不是连续型分布,就要使用更加一般化的广义线性模型(generalized linear model),通过一个连接函数变换响应变量期望,将响应变量的期望与自变量建立线性关系。
T-test 检验是差异基因表达检测中常用的统计方法,通过合并样本间可变的数据,来评价差异表达,用于判断某一基因在两个样本中是否有差异表达。由于芯片实验成本较高,样本量较少,从而对总体方差的估计不很准确,T检验的检验效能降低。
3、SAM算法
SAM算法就是通过控制FDR值纠正多重假设检验中的假阳性率。SAM 方法检验差异表达,通过对分母增加一个常量 T 检验过程减小了假阳性发生的概率。根据文献记载,相比较其他算法,SAM算法更为稳定,筛选出的结果也更为准确。SAM方法以q-value< 0.05作为筛选差异表达基因的标准,从公式上来看,p-value和q-value较为相似,而差异筛选是一个典型的多重假设检验过程。对于多重假设检验,单次检验中差异显著基因的假阳性率(p-value较小)可能会较大,而q-value 和 FDR值较常见的BH校正方法得到的FDR值而言,改进了其对假阳性估计的保守性。
image火山图
image火山图可反映总体基因的表达情况,横坐标代表log2(Fold Change),纵坐标表示-log10(P值),每个点代表一个基因,颜色用以区分基因是否差异表达,图中橙色的点代表差异表达基因,蓝色的点代表没有差异表达的基因。
聚类图
image聚类图可以衡量样本或基因之间表达的相似性。 如上图所示的聚类图中,横坐标代表样本聚类,一列代表一个样本,聚类基于样本间基因表达的相似性,样本间基因表达越接近,靠的越近,以此类推。 纵坐标代表基因聚类,一行代表一个基因,聚类基于基因在样本中表达的相似性,基因在样本中表达越接近,靠的越近,以此类推。 色阶代表基因表达丰度,越红代表上调得越明显,越绿代表下调得越明显。
REF:
https://www.jianshu.com/p/b55276e46f0c
https://blog.csdn.net/u012325865/article/details/87344725
网友评论