表达矩阵的基因表达量差异主要由两个方面的因素造成,其一是生物学差异,其二就是技术噪音。而借助spike-in 的表达量,能够借助统计模型将这两种差异进行区分,从而获得只反映生物差异的基因。
实现方法
基本前提:人工添加的定量的外源RNA(spike-in RNA),它是不存在第一种因素(真实生物差异)的,所以它们的变化可以直接反映技术噪音,然后将整体的内源基因平均表达量变化与spike-in进行拟合。
- 先利用trendVar函数=》fit a mean-dependent trend to the variances of the log-expression values for the spike-in transcripts
- 上面利用spike-in对所有基因得到了拟合值,它可以被认为是技术误差导致的方差,然后利用decomposeVar() 从总体方差中减去技术方差,得到的就是生物因素导致的方差
- 作图查看技术噪音分布。横坐标表示平均表达对数值,纵坐标表示方差。红点为spike-in 表达方差随平均表达的变化,蓝色线为spike-in 方差变化的拟合曲线。黑色点为内源基因表达方差值变化,蓝色线条以上的点即为只反映生物差异的细胞。
总之,spike-in的表达能够反映基因表达的技术噪音分布,从而保证基因表达真实反映生物差异。从下图可以说明,基因平均表达从0开始,表达方差也呈线性增加,当平均表达达到一定水平,大部分基因表达的方差也趋于稳定,这与类似于管家基因的表达一致,同时高表达的基因的技术误差较小。
基因表达技术噪音拟合模型
网友评论