转录组与表达芯片数据挖掘方法学习笔记

作者: jiarf | 来源:发表于2020-11-05 09:18 被阅读0次

表达数据挖掘
三张表
表达矩阵：（GEO数据库）---差异表达分析

image.png

样本信息表（每一列描述）

前两张做
差异表达分析
基因信息表（每一行描述）

基因与表型关系

1.差异表达分析

FC差异倍数，

差异表达结果可视化----火山图、热图

2.差异基因富集分析：GO 分类、pathway分类

image.png

generatio >> bgratio 且 pvalue <0.05这些差异基因富集到这个功能分类上
差异分析结果展示

image.png

3.样本聚类分析：样本量大时

哪些基因和油脂含量高低有影响

image.png

哪些样本和哪些样本的表达模式是相似的（x轴为样本一，以y轴为样本2，大概可以看到所有的点都集中在一条直线上（用相似性算），这就叫两个样本的表达模式很相似）

image.png

油脂含量在10天的时候高低分开

找基因间的相关系数，表达模式相似，两个基因之间有某种关系

image.png

基因一（x）和基因2（y）集中在那条线上，相关性很高

image.png
许多基因影响表型

先把好多基因（表达模式相似的基因）聚类在一起，cluster，，，，，每个cluster负责一个功能，，，，干啥事呢，，，拿cluster与表型再去做关联，

image.png

WGCNA分析，加权共表达分析

探索基因与表现得关系

1.模块构建A图
每个细线代表一个基因，每个颜色一个cluster
2.算相关性
每一列一个表型
每一行一个cluster
哪个模块与哪个表型相似

image.png
紫色圈里面相关性最高
哪个cluster有34个基因，那么那么多的基因与花青素的相关性肯定不是一样高的

3.鉴定Hub基因
把这34个基因用一个软件：Cytoscape画一个网络图

image.png
处于关键节点处的基因就是最重要的基因hub节点

把基因由多到少的筛选，WGCNA就是聚类分析
优点：聚类首先算相关性，构成一个距离矩阵，后来不合理，好多基因组成的网络是无标度网络（右边的）

image.png

而相关性构建出来的网络不是无标度网络，而是随机网络，

image.png

WGCNA分析和聚类分析本质上都是降维分析，每个基因是一个维度

image.png

聚类分析（表达模式相似的基因聚在一起），

主成分分析-降维分析

原来一组相关变量经过线性变化转为不相关的

image.png

这样的pc1与所有的都有关系

image.png
1.pc1
2.pc1

举例

image.png

左上，主成分的贡献度 pc1最大

image.png

上图中每个点代表一个样本，
下图中，把所有点落在x轴上看

image.png
pc1把时间那个四个时期划分开了，，，要想研究四个时期，就应该重点研究pc1
那怎么研究pc1呢？研究那些pc1的基因里贡献最大的

image.png

都话在这张图上，，那就重点研究pc1里的这些基因，是与苹果发育的时期相关的基因
通过PCA分析，将基因与表型对上了

PCA案例

image.png

pc1把根茎其他组织区分开了--组织之间的差异

image.png

野生番茄和栽培番茄的差异，研究PC3，

总结

表达数据挖掘----哪些基因跟我们表型相关

image.png

1、找到关键基因的三种方法

image.png

每种方法画哪种图，已经找出来了。

2进一步研究那些基因功能，功能分析

基因少的话直接找基因功能，基因几千个的话，通过一些统计学的方法再去研究基因功能
1.富集分析
2.蛋白互作网络分析（已有数据库中看一下基因是否在功能上有聚集

做的图也在后面了

3.表达验证，测序靠不靠谱，再取几个样本做qPCR证明测序和表达芯片没问题；测序或芯片，样本重复少，，经费不够样本少要做

实验验证QPCR
数据库验证:TCGA（肿瘤数据库，肿瘤病人很多，正常人很少）

image.png

GTEX，这个数据库里都是正常人，跟上个数据库一比较，，你看我这个基因在肿瘤中表达量相当高，正常人中表达量很低
GEPIA2：将他们整合在一起验证的一个数据库

image.png
肿瘤的数据就可以不做实验就可以发文章了，有大量肿瘤数据库
刚才只是证明了，某个基因跟表型是相关的，要再做

功能验证

image.png

敲出，过表达，
生存分析
文章十分以上
为什么这个基因和这个功能相关呢

分子机制

image.png

各类数据库

image.png

~~~如果只有几十个基因，，要往后翻才能找到差异的PC

测序平台不同怎么整合数据(标准化、均一化）
同种的是可以的，都是illumina
~~~~![image.png](https://img.haomeiwen.com/i24181854/738e5b3d0ef823a0.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
WGCNA分析不可以用差异基因做，
过滤要去掉样本间差异小的基因要过滤掉：比如SD方法等等
把这些基因去做WGCNA分析，而不是直接做完差异分析再去做WGCNA分析。

网友评论

R

本文标题：转录组与表达芯片数据挖掘方法学习笔记

本文链接：https://www.haomeiwen.com/subject/zkigvktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

转录组与表达芯片数据挖掘方法学习笔记

1.差异表达分析

2.差异基因富集分析：GO 分类、pathway分类

3.样本聚类分析：样本量大时

找基因间的相关系数，表达模式相似，两个基因之间有某种关系

WGCNA分析，加权共表达分析

主成分分析-降维分析

举例

PCA案例

总结

1、找到关键基因的三种方法

2进一步研究那些基因功能，功能分析

3.表达验证，测序靠不靠谱，再取几个样本做qPCR证明测序和表达芯片没问题；测序或芯片，样本重复少，，经费不够样本少要做

功能验证

分子机制

各类数据库

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

R