一、项目设计
- 测多少数据量?
- 几个生物学重复?
- 混池测序是否性价比很高?
- 参考序列怎么选?
二、分析方法
- 转录本拼接
- 比对的两种模式
- 表达定量
- FPKM,RPKM,TPM,TMM
- 差异表达分析
1. 什么是基因组?
物种、亚种、个体、单细胞都可以测基因组。基因组是指一个细胞或者一个生物的完整序列,包括基因序列和基因间区域序列。在实际研究中,一个物种内的基因组差别不大,常说的是指物种的基因组,即参考基因组。
对于二倍体来说,两套染色体差异较小,常说的基因组是指单倍体的基因组,再加上差异较大的性染色体。
2. 转录组的研究对象
主要研究 mRNA ,但是生物体内 mRNA 只占一小部分(1%-5%) ,所以实验中应当提前去除其他RNA保留 mRNA。
mRNA 有编码蛋白质的能力,它又被称为编码 RNA 。而其他没有编码蛋白质能力的 RNA 则被称为非编码 RNA(ncRNA)。它们经由催化生化反应,或透过调控或参与基因表达过程发挥相应的生理功能。比如:
tRNA(转运RNA)在翻译过程中起转运RNA的作用
rRNA(核糖体RNA)于翻译过程中起催化肽链形成的作用
sRNA(英语:small RNA)(小RNA)起到调控基因表达的作用,比如组成剪接体的 snRNA ,负责 rRNA 成型的 snoRNA ,以及参与RNAi作用 的 miRNA 与 siRNA 等,可调节基因表达。
3. 转录组研究前提
相同基因在不同组织中表达不同
相同基因在同一组织中不同条件和时间中表达不同
因此,研究的转录组是指,某组织/细胞在特定条件下基因的转录情况。
4. 转录组测序流程理解
贴一个知乎专栏回答
https://zhuanlan.zhihu.com/p/139773946
5. 如何评价自己的测序结果和分析结果?
比如:
- 10个生物学重复和3个生物学重复对于差异基因的表达有多大的提升?
- 哪个差异表达鉴定软件更加准确?
引入以下指标,准确率、召回率、PRC、F-measure
这里精确率的计算方式,把正确的加起来除以总的,这里 A 捞上来的700条鲤鱼和 D没有捞上来的虾和鳖是正确的。(因为我们只想捞出来鱼不想要虾、鳖,没捞上来的鱼不应该,捞上来的虾鳖也不应该)
但是这样会有问题,如下
举例
如果只预测人都健康,那么这个精确率会很高,但是不符合实际。所以,需要引进更专业的数据。
这里会发现,准确率和召回率很难平衡,就像渔网网孔的大小一样,所以就又引入了一个指标,F-measure。
这里P代表准确率,R代表召回率
另外一组评价体系和指标,敏感度、特异度、ROC、AUC
然后根据真阳性率和假阳性率作图,线条偏左上方的最好,如果难以判断就计算线条右下方的面积(AUC),面积越大说明真阳越多,假阳越少结果就越准确。
6. 转录组分析整体流程
5.比对
- 提取 smallRNA或者 mRNA(最常用来研究的RNA)
- 随机打断
- 逆转录成 cDNA
- 测序
有参考基因组的转录组
比对到参考基因组上计算表达量
有参考基因组
无参考基因组的转录组
先整合测序结果,组装一个参考序列,再进行比对计算计算基因表达量
无参考基因组
有参考基因组的可以额外多做一些东西,如:
7. 转录组项目设置
- 取哪些样品?
根据自己的实验设计来取样。设置几个重复?
- 多少数据量?
可以看出重复越多,测序量越大结果会越好。
测序深度建议
8. 混池测序
在探究差异表达基因的时候不能混池测序,如果实在想混池,样本一定要多,80,100+,大量样本的混池,如果仅是对序列进行研究那么可以混池测序
9. Trinity 拼接原理
Inchworm Algorithm(将 reads 打断成 k-mer,通过 K-mer 算法构建线性序列)
使用这种方法拼出序列
同时为寻找可变剪切提供条件
Chrysalis(根据线性序列 k-1mer 的重叠关系进行组合,构建可变剪切的关系(德布鲁因图)一个图对应一个基因,不同的路径代表不同的剪接形式)
Butterfly(根据 reads 对各个路径的支持,选择最优路径,打印出最终的序列)
10. 比对到参考序列
比对软件选择
还有其他很多软件可以做
11. RPKM FPKM TPM
RNA-Seq 数据的定量之RPKM和FPKM
RNA-Seq 数据的定量基本假设以及TPM
推荐使用TPM
12. 样品间表达标准化
鉴定样品间基因的差异表达时,我们往往关心的是绝对表达量是否有差异,因此需要对组间的数据进一步标准化。如图:
此处显然由于 G5 基因表达过高,导致其他基因相对表达降低。
解决方法1:
内参基因(管家基因,看家基因):不同组织、不同条件下表达恒定的基因。
但是,看家基因数量不多,对于无参考基因组的物种来说也不现实,比较依赖基因注释结果。所以不太提倡使用。
目前还有没 TPM 和 TMM 的结合解决方法2 :
image.png
假设大多数基因都是没有差异表达的
实际操作中,trinity里面有相应的 run_DE_analysis.pl 脚本可以使用
13. 利用假设检验进行差异表达基因的鉴定
一般使用 t 检验
可以参考之前写的关于FDR那些
网友评论