这期的BBQ继续,我们来持续关注转录本的分析!
我们在上期的BBQ(BBQ(生物信息基础问题35,36):RNA-Seq 数据的定量之RPKM,FPKM和TPM)简单的介绍了RNA-Seq使用RPKM/FPKM/TPM指标定量的两个基本假设:
- 是绝大多数的基因表达量不变
- 是高表达的基因表达量不发生改变
但是在一些比较特殊的样本体系下。这两个假设可能不会同时符合。我们今天就是要讨论一下RNA-Seq的校正的问题。
1:当样本转录本不符合常规假设时,RNA-Seq定量校正的方法
有两种校正思路:
第一种是认为持家基因(Housekeeping gene)的表达量在样本中是基本不变;
第二种是需要在RNA-Seq建库的过程中预先知道浓度和具体分子量的spike-in作为内参,然后利用内参进行校正。
我们今天关注第一种校正思路:
2:持家基因(Housekeeping gene)是什么?
持家基因,也有人翻译成管家基因,对应的英文就是Housekeeping gene。那么如何去定义这个管家基因呢?
1: should one look for genes merely being expressed in all tissue?(是不是这个基因在所有的组织都会有点表达呢?)
2: should the gene also be expressed at a constant level across tissues?(是不是这些基因在组织间的表达量差不多?)
管家基因生物体内所有细胞中都表达,并且为维持细胞基本生命活动所需而时刻都在表达的高度保守的基因。一般在不同的细胞中,我们都认为Housekeeping gene一般情况下表达量不发生很大的改变。比如在做qPCR的时候,经常选用GAPDH(ps :GAPDH在不同的组织中的表达量也差异很大)或者是TUBB这两个gene作为内参就是非常经典的Housekeeping gene。
1:关于Housekeeping gene更详细的说明,可以参考Wiki百科的资料:
Wiki:Housekeeping gene
2:为啥芯片在转录组测序中逐渐走了下坡路呢?有哪些问题呢?
缺陷:
2.1): 存在策略误差,背景信号等问题会对把基因表达缺失和基因低表达弄混淆。
2.2):在组织中,芯片绝大部分的基因表达都比较低。
3. Human常用的Housekeeping gene 怎么确定?
目前大家用的比较多的一个human housekeeping gene list 来源于下面这篇文章,是2013年发表在 Cell系列的 Trends in Genetics 部分的一篇文章。https://www.cell.com/trends/genetics/fulltext/S0168-9525(13)00089-9
在这篇文章给出了一个gene list,我们就可以在分析的过程中认为这些gene的表达量是不怎么发生变化的,即使发生了一定的变化,也只是个别的发生了一定程度的改变,而不是这3000多个gene整体大幅度发生改变。在这个假设的基础上,我们就可以用这3000多个gene做1根标准曲线,然后就可以根据线性回归的结果对不同样本之间原来的RPKM/FPKM/TPM进行矫正,从而得到一个通过housekeeping gene矫正过后的定量结果,通常情况下,这个定量的结果会更加稳定和准确,即能够完成我们的定量任务。
4:提问环节
那么今天的问题是,请下载Housekeeping gene list,并查看文件内容,请思考使用housekeeping gene矫正有什么缺陷?
下载地址: https://m.tau.ac.il/~elieis/HKG/HK_genes.txt
已经发现用于实验对照的GAPDH和其他流行的管家基因在组织间差异很大。得查文献确定一下选择的管家基因是否可以用于自己的RNA-Seq分析,或者评估一下自己选择的管家基因有没有问题。
Ref:
1:生物信息学100个基础问题 —— 第37题 当样本转录组普遍变化时RNA-Seq怎么进行分析(1)? https://zhuanlan.zhihu.com/p/51974084
2:https://www.cell.com/trends/genetics/fulltext/S0168-9525(13)00089-9
网友评论