美文网首页RNA-seq
RNAseq基础(项目设计,方法原理)

RNAseq基础(项目设计,方法原理)

作者: 奔跑的Forrest | 来源:发表于2020-06-05 22:03 被阅读0次

    一、项目设计

    1. 测多少数据量?
    2. 几个生物学重复?
    3. 混池测序是否性价比很高?
    4. 参考序列怎么选?

    二、分析方法

    1. 转录本拼接
    2. 比对的两种模式
    3. 表达定量
    4. FPKM,RPKM,TPM,TMM
    5. 差异表达分析

    1. 什么是基因组?

    物种、亚种、个体、单细胞都可以测基因组。基因组是指一个细胞或者一个生物的完整序列,包括基因序列和基因间区域序列。在实际研究中,一个物种内的基因组差别不大,常说的是指物种的基因组,即参考基因组。
    对于二倍体来说,两套染色体差异较小,常说的基因组是指单倍体的基因组,再加上差异较大的性染色体。

    2. 转录组的研究对象

    主要研究 mRNA ,但是生物体内 mRNA 只占一小部分(1%-5%) ,所以实验中应当提前去除其他RNA保留 mRNA。

    mRNA 有编码蛋白质的能力,它又被称为编码 RNA 。而其他没有编码蛋白质能力的 RNA 则被称为非编码 RNA(ncRNA)。它们经由催化生化反应,或透过调控或参与基因表达过程发挥相应的生理功能。比如:
    tRNA(转运RNA)在翻译过程中起转运RNA的作用
    rRNA(核糖体RNA)于翻译过程中起催化肽链形成的作用
    sRNA(英语:small RNA)(小RNA)起到调控基因表达的作用,比如组成剪接体的 snRNA ,负责 rRNA 成型的 snoRNA ,以及参与RNAi作用 的 miRNA 与 siRNA 等,可调节基因表达。

    3. 转录组研究前提

    相同基因在不同组织中表达不同
    相同基因在同一组织中不同条件和时间中表达不同
    因此,研究的转录组是指,某组织/细胞在特定条件下基因的转录情况。

    4. 转录组测序流程理解

    贴一个知乎专栏回答
    https://zhuanlan.zhihu.com/p/139773946

    5. 如何评价自己的测序结果和分析结果?

    比如:

    • 10个生物学重复和3个生物学重复对于差异基因的表达有多大的提升?
    • 哪个差异表达鉴定软件更加准确?

    引入以下指标,准确率、召回率、PRC、F-measure

    举例
    这里精确率的计算方式,把正确的加起来除以总的,这里 A 捞上来的700条鲤鱼和 D没有捞上来的虾和鳖是正确的。(因为我们只想捞出来鱼不想要虾、鳖,没捞上来的鱼不应该,捞上来的虾鳖也不应该)
    但是这样会有问题,如下
    举例
    如果只预测人都健康,那么这个精确率会很高,但是不符合实际。所以,需要引进更专业的数据。

    这里会发现,准确率和召回率很难平衡,就像渔网网孔的大小一样,所以就又引入了一个指标,F-measure。
    这里P代表准确率,R代表召回率

    另外一组评价体系和指标,敏感度、特异度、ROC、AUC

    将捕鱼那个换一下概念
    然后根据真阳性率和假阳性率作图,线条偏左上方的最好,如果难以判断就计算线条右下方的面积(AUC),面积越大说明真阳越多,假阳越少结果就越准确。

    6. 转录组分析整体流程

    1. 提取 smallRNA或者 mRNA(最常用来研究的RNA)
    2. 随机打断
    3. 逆转录成 cDNA
    4. 测序
    5.比对

    有参考基因组的转录组

    1. 比对到参考基因组上计算表达量


      有参考基因组

    无参考基因组的转录组

    1. 先整合测序结果,组装一个参考序列,再进行比对计算计算基因表达量


      无参考基因组

    有参考基因组的可以额外多做一些东西,如:



    7. 转录组项目设置

    • 取哪些样品?
      根据自己的实验设计来取样。
    • 设置几个重复?


    • 多少数据量?


      可以看出重复越多,测序量越大结果会越好。
      测序深度建议

    8. 混池测序

    在探究差异表达基因的时候不能混池测序,如果实在想混池,样本一定要多,80,100+,大量样本的混池,如果仅是对序列进行研究那么可以混池测序


    9. Trinity 拼接原理

    Inchworm Algorithm(将 reads 打断成 k-mer,通过 K-mer 算法构建线性序列)



    使用这种方法拼出序列
    同时为寻找可变剪切提供条件

    Chrysalis(根据线性序列 k-1mer 的重叠关系进行组合,构建可变剪切的关系(德布鲁因图)一个图对应一个基因,不同的路径代表不同的剪接形式)


    Butterfly(根据 reads 对各个路径的支持,选择最优路径,打印出最终的序列)


    10. 比对到参考序列


    比对软件选择


    还有其他很多软件可以做

    11. RPKM FPKM TPM

    RNA-Seq 数据的定量之RPKM和FPKM
    RNA-Seq 数据的定量基本假设以及TPM

    所以需要标准化
    推荐使用TPM

    12. 样品间表达标准化

    鉴定样品间基因的差异表达时,我们往往关心的是绝对表达量是否有差异,因此需要对组间的数据进一步标准化。如图:



    此处显然由于 G5 基因表达过高,导致其他基因相对表达降低。

    解决方法1:
    内参基因(管家基因,看家基因):不同组织、不同条件下表达恒定的基因。


    但是,看家基因数量不多,对于无参考基因组的物种来说也不现实,比较依赖基因注释结果。所以不太提倡使用。

    解决方法2 :
    假设大多数基因都是没有差异表达的

    image.png
    实际操作中,trinity里面有相应的 run_DE_analysis.pl 脚本可以使用
    目前还有没 TPM 和 TMM 的结合

    13. 利用假设检验进行差异表达基因的鉴定


    一般使用 t 检验

    可以参考之前写的关于FDR那些

    相关文章

      网友评论

        本文标题:RNAseq基础(项目设计,方法原理)

        本文链接:https://www.haomeiwen.com/subject/frcozhtx.html