基因课FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
听张旭东老师的课
发展情形
- 蛋白质组学、代谢组学技术不成熟,费用高 → 大量做转录组学(间接)
- 表达芯片已经大部分被转录组测序替代,表达芯片优劣势,有可能芯片上没有
简单的分析流程
测序数据(上百G) --标准分析(需要服务器)→ 表达矩阵(几M) --数据挖掘(PC/R语言)→ 统计图表(几M)
表达数据挖掘
- 三张表
① 表达矩阵:每行一个gene,每列一个样本sample(可以在GEO数据库下载)
g/S | Sample1 | Sample2 | Sample3 |
---|---|---|---|
gene1 | 38 | 55 | 76 |
gene2 | 127 | 41 | 86 |
gene3 | 46 | 29 | 34 |
... | ... | ... | ... |
② 样本信息表:每行一个样本,每列一个表型特征(临床信息、表型特征、生化指标等)
S/Phenotype | Group | Weight | Age | Stage |
---|---|---|---|---|
Sample1 | Cancer | 20 | 10 | I |
Sample2 | Cancer | 34 | 39 | III |
Sample3 | Normal | 64 | 49 | IV |
Sample4 | Normal | 44 | 34 | I |
... | ... | ... | ... | ... |
③基因信息表:每行一个基因,每列一个信息
g/Information | Symbol | Function |
---|---|---|
gene1 | KCNA3 | xxx |
gene2 | NCON3 | Xxx |
gene3 | DDB1 | xXx |
... | ... | ... |
- 研究目的
大多数为找到表型背后的分子机制 -
注
RNA测序数据与芯片测序数据可以合并分析,但不能直接合并,相当于是个分析各的,再看两个分析找到的规律是否一致
分析方法
寻找关键基因和关键样本
-
差异表达分析:哪些基因在两组样本中有明显表达差异?
- 差异表达分析得到的表格中:
FC(Folder change) 该基因在所检测的两组样品中表达量相差多少倍
log2FC
Pval(P value) 假设检验
Padj 多重假设矫正之后的P value → 矫正之后的P value小于0.05为有显著差异- Questions
① 如何筛选差异基因,只用P value<0.05行不行?
不行,还要FC>2 或 |log2FC|>1
② 该设计多少个生物学重复?
最少3个,最好有7、8个
③ 是否生物学重复越多,鉴定到的差异表达基因就越多?
是。重复越多,更多差异小的基因被识别
④ DESeq2 鉴定到500个差异基因,换edgeR有2000个,哪个对?
都对,选择合适的,不同算法模式不一样,要选择适合目标测序结果的差异表达分析模型。差异表达基因少可以考虑换个模型,换个算法。
- Questions
- 差异表达分析结果可视化
- 火山图 左上角、右上角差异越大
- Heatmap 表达量矩阵可视化
- Question
① 是否差异越大的基因越该重点关注
否,很多是已经研究透彻的基因;可能只是结果,不是原因
② 差异表达基因过多或过少该如何调整?
差异表达分析的基础是假设检验(t检验),假设检验涉及到概率模型,有可能当前假设的概率模型并不适合当前实验结果,可以选择其他分析软件,或调整参数,更换概率模型,从而达到这种目的。
- 差异表达分析得到的表格中:
-
样本聚类分析:探索样本之间的关系,锁定关键样本,之后再做差异分析。
- 样本间相关系数:用来描述样本表达模式的相似程度
组间差异大,组内差异小 → 正常,反之,不正常,可能需要重做。 - 基因间相关系数:找到与已知基因关联基因
表达模式相似的基因 - 相关系数:三种常用计算方法
Pearson相关系数
Spearman相关系数
Kendel相关系数
通常会关心相关系数在0.75 - 1 之间的值 -
注:
性别 —— Kendel相关系数
肿瘤分期 —— Spearman相关系数
- 样本间相关系数:用来描述样本表达模式的相似程度
-
聚类分析和WGCNA:探索基因与表型的关系
- 基因与表型可以做相关性分析,但是对于一个表型,不止一个基因与之相关,因此采取: 对所有基因聚类 → 用聚类后的基因簇(cluster)与表型做相关性分析
- WGCNA分析(加权共表达分析)
① 模块构建(基因聚类)
② 性状与模块相关分析 —— 筛选出与该表型相关的gene cluster —— 对于该性状,cluster中的基因不是同等重要,用Cytoscape绘出网络图,确定在中心位置的为关键gene
③ 鉴定Hub基因 - TOM矩阵(拓扑重叠矩阵)
-
注
大部分人该过程在PC上完成,因为很耗内存,很多都不得不滤除一些差异很小的基因
-
主成分分析(PCA)
- 聚类分析和主成分分析都是降维分析
- 对原来数据进行PC线性变换,通过n个PC各项加权,将m项降维至n项(n<m)
- 要考虑的问题:
① 哪个PC最能体现样品的差异?
② 假如你关心某项功能,应该重点关注哪个PC?
③ 重点关注哪个PC,可以完成聚类 - 结果图:
hub PC:bioplot
hub PC:表型关联
hub genes:loadings plot
功能分析
- 富集分析:差异基因是否显著集中在某个功能分类上?
- 功能分类:GO分类、Pathway分类
- 富集分析结果
GO分类ID
Description 分类功能描述
GeneRatio 差异基因中有多少富集在此pathway上
BgRatio 背景,所有基因中有多少富集在此Pathway上
Pvalue 比较以上两者,得到Pvalue
P.adjust P值矫正 - 最佳实践:通过ClusterProfiler软件包做
- 蛋白互作网络分析(PPI)
- 通过已有数据库查看基因是否有关联
表达验证
- 目的:验证测序、芯片是否靠谱;测序样本生物学重复数量少,可以在表达验证掰回来,验证时多点生物学重复,增强说服力。
- 方法
qPCR验证
数据库检索数据验证(肿瘤数据库TCGA、正常人数据库GTEx、将两者结合在一起的数据库) - 功能:证明相关性,但还不能证明这些基因就有这个功能
功能验证
- 实验:
敲除、敲低
过表达 - 人类疾病:生存分析
分子机制
TCGA等多组学关联分析
- 序列变异
- 表观遗传修饰
- 转录调控
网友评论