转录组数据挖掘方法原理

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-07-09 15:30 被阅读0次

基因课FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
听张旭东老师的课

发展情形

  • 蛋白质组学、代谢组学技术不成熟,费用高 → 大量做转录组学(间接)
  • 表达芯片已经大部分被转录组测序替代,表达芯片优劣势,有可能芯片上没有

简单的分析流程

测序数据(上百G) --标准分析(需要服务器)→ 表达矩阵(几M) --数据挖掘(PC/R语言)→ 统计图表(几M)

表达数据挖掘

  • 三张表

① 表达矩阵:每行一个gene,每列一个样本sample(可以在GEO数据库下载)

g/S Sample1 Sample2 Sample3
gene1 38 55 76
gene2 127 41 86
gene3 46 29 34
... ... ... ...

② 样本信息表:每行一个样本,每列一个表型特征(临床信息、表型特征、生化指标等)

S/Phenotype Group Weight Age Stage
Sample1 Cancer 20 10 I
Sample2 Cancer 34 39 III
Sample3 Normal 64 49 IV
Sample4 Normal 44 34 I
... ... ... ... ...

③基因信息表:每行一个基因,每列一个信息

g/Information Symbol Function
gene1 KCNA3 xxx
gene2 NCON3 Xxx
gene3 DDB1 xXx
... ... ...
  • 研究目的
    大多数为找到表型背后的分子机制

  • RNA测序数据与芯片测序数据可以合并分析,但不能直接合并,相当于是个分析各的,再看两个分析找到的规律是否一致

分析方法

寻找关键基因和关键样本

  • 差异表达分析:哪些基因在两组样本中有明显表达差异?

    • 差异表达分析得到的表格中:
      FC(Folder change) 该基因在所检测的两组样品中表达量相差多少倍
      log2FC
      Pval(P value) 假设检验
      Padj 多重假设矫正之后的P value → 矫正之后的P value小于0.05为有显著差异
      • Questions
        ① 如何筛选差异基因,只用P value<0.05行不行?
        不行,还要FC>2 或 |log2FC|>1
        ② 该设计多少个生物学重复?
        最少3个,最好有7、8个
        ③ 是否生物学重复越多,鉴定到的差异表达基因就越多?
        是。重复越多,更多差异小的基因被识别
        ④ DESeq2 鉴定到500个差异基因,换edgeR有2000个,哪个对?
        都对,选择合适的,不同算法模式不一样,要选择适合目标测序结果的差异表达分析模型。差异表达基因少可以考虑换个模型,换个算法。
    • 差异表达分析结果可视化
      • 火山图 左上角、右上角差异越大
      • Heatmap 表达量矩阵可视化
      • Question
        ① 是否差异越大的基因越该重点关注
        否,很多是已经研究透彻的基因;可能只是结果,不是原因
        ② 差异表达基因过多或过少该如何调整?
        差异表达分析的基础是假设检验(t检验),假设检验涉及到概率模型,有可能当前假设的概率模型并不适合当前实验结果,可以选择其他分析软件,或调整参数,更换概率模型,从而达到这种目的。
  • 样本聚类分析:探索样本之间的关系,锁定关键样本,之后再做差异分析。

    • 样本间相关系数:用来描述样本表达模式的相似程度
      组间差异大,组内差异小 → 正常,反之,不正常,可能需要重做。
    • 基因间相关系数:找到与已知基因关联基因
      表达模式相似的基因
    • 相关系数:三种常用计算方法
      Pearson相关系数
      Spearman相关系数
      Kendel相关系数
      通常会关心相关系数在0.75 - 1 之间的值

    • 性别 —— Kendel相关系数
      肿瘤分期 —— Spearman相关系数
  • 聚类分析和WGCNA:探索基因与表型的关系

    • 基因与表型可以做相关性分析,但是对于一个表型,不止一个基因与之相关,因此采取: 对所有基因聚类 → 用聚类后的基因簇(cluster)与表型做相关性分析
    • WGCNA分析(加权共表达分析)
      ① 模块构建(基因聚类)
      ② 性状与模块相关分析 —— 筛选出与该表型相关的gene cluster —— 对于该性状,cluster中的基因不是同等重要,用Cytoscape绘出网络图,确定在中心位置的为关键gene
      ③ 鉴定Hub基因
    • TOM矩阵(拓扑重叠矩阵)

    • 大部分人该过程在PC上完成,因为很耗内存,很多都不得不滤除一些差异很小的基因
  • 主成分分析(PCA)

    • 聚类分析和主成分分析都是降维分析
    • 对原来数据进行PC线性变换,通过n个PC各项加权,将m项降维至n项(n<m)
    • 要考虑的问题:
      ① 哪个PC最能体现样品的差异?
      ② 假如你关心某项功能,应该重点关注哪个PC?
      ③ 重点关注哪个PC,可以完成聚类
    • 结果图:
      hub PC:bioplot
      hub PC:表型关联
      hub genes:loadings plot

功能分析

  • 富集分析:差异基因是否显著集中在某个功能分类上?
    • 功能分类:GO分类、Pathway分类
    • 富集分析结果
      GO分类ID
      Description 分类功能描述
      GeneRatio 差异基因中有多少富集在此pathway上
      BgRatio 背景,所有基因中有多少富集在此Pathway上
      Pvalue 比较以上两者,得到Pvalue
      P.adjust P值矫正
    • 最佳实践:通过ClusterProfiler软件包做
  • 蛋白互作网络分析(PPI)
    • 通过已有数据库查看基因是否有关联

表达验证

  • 目的:验证测序、芯片是否靠谱;测序样本生物学重复数量少,可以在表达验证掰回来,验证时多点生物学重复,增强说服力。
  • 方法
    qPCR验证
    数据库检索数据验证(肿瘤数据库TCGA、正常人数据库GTEx、将两者结合在一起的数据库)
  • 功能:证明相关性,但还不能证明这些基因就有这个功能

功能验证

  • 实验:
    敲除、敲低
    过表达
  • 人类疾病:生存分析

分子机制

TCGA等多组学关联分析

  • 序列变异
  • 表观遗传修饰
  • 转录调控

相关文章

网友评论

    本文标题:转录组数据挖掘方法原理

    本文链接:https://www.haomeiwen.com/subject/zucbqktx.html