表达矩阵标准化是差异分析的第一步,关于为什么需要标准化及常用的标准化的方法有哪些的一篇笔记。
为什么需要标准化?
转录组测序采取的打断基因序列获得基因测序的片段,再将reads比对到参考基因组上,并对读序定量,因而最初的表达矩阵是读序数。那么,当需要对样本进行差异分析时,就必须考虑影响读序数的几个因素。
1. 测序深度
也就是一次测序得到的总reads数,不同样本中,会因为批次、实验方案不同,导致样本测序深度不同。
不同测序深度下基因定量结果图中:貌似A样本的所有基因表达量都是B的两倍。但如果A样本本身测序量就大呢?也就是说,A和B的“家底”就不同,不能直接放一起比较,要比也要放在同一水平公正去比
2. 基因长度
同一样本中,因为某些基因序列较长,导致比对到该基因的读序更多,而序列较短的基因则显得表达量相对较低。
基因长度影响的表达量图中: 虽然都位于样本A,但基因X比Y要长,所以比对过程中也有更多的reads落在X上,这样X的获胜很有可能是靠着自己“修长”的身材,而不是靠真正的表达量实力
3. RNA组成
在某些样本中,个别基因的表达量异常高,虽然该样本的其他基因表达量也有较高表达,但是在对不同样本间采用相同的标准化方法时,会因为这个别基因的极高表达而影响该样本的其他基因的相对表达量。
个别极高表达的基因图中: 本来样本A中的所有基因都比B要高,即使为了公平起见处理一下测序深度,也很有可能是胜出或者打个平手。但A中出现了一个DE基因(可以理解成表达迥异的基因),它的到来让我们误以为样本A的测序深度很高,于是给A的所有基因都除以了一个值,保证和样本B可比。于是,样本A中除了DE以外的基因,最后都被B的对应基因打败了【A中基因含恨而亡,DE很愧疚】
三种不同的实验方案
一般需要进行差异分析的实验样本主要有三种情况,也就是不同的差异分析的样本组合对象。
1. 组间样本比较
也就是不同样本间的差异分析,类似于对照与处理样本的差异分析。比较关注某个样本中相关基因表达上升或下降。
2. 组内样本重复
既然是重复实验样本,也就不希望样本间有明显的表达差异。
3. 组内样本内基因间
我这个组的一个重复样本中的A基因和B基因,哪个表达量更高一些?为什么对于我这个样本,B基因表达量会高于A呢?
几种常用标准化方法
目前普通转录组中常用的标准化方法包括,RPKM, FPKM, TMP, TMM, 及相应差异分析的R包的标准化方法。下表中给出了常用的标准化方法的定义、主要考虑的因素及使用的情况。
几种标准化方法的比较
网友评论