一篇最基本生信分析文献解读

作者: drlee_fc74 | 来源:发表于2020-04-10 08:45 被阅读0次

一篇最基本生信分析文献解读
随机森林与人工神经网络联合诊断心衰模型的构建与分析
关于mRNA上的m6A富集分析文献解读
WGCNA实例分析及解读（附代码）
纯生信免疫微环境分析文献解读
pubmed文献详情插件——Scholarscope
新冠病毒检测qRT-PCR引物设计注意事项
[文献解读2]-基于SEER数据库的回顾性分析
元分析 | 情绪偏向随刺激类型、刺激唤醒度和任务类型而变化的规律
元分析 | 情绪偏向随刺激类型、刺激唤醒度和任务类型而变化的规律

利用一周多的时间，我们把最最基本的生信套路来讲解了一遍。正好前几天一个小伙伴拿了一篇相关文献在咨询问题。这里就拿这篇文献来总结一下我们目前写的这些东西。

这次我们来讲解的这边文献是2019-10-12发表的OTT杂志上的一篇生信加少量实验验证的文章。实话实说，目前对于生信最最最基本的套路，如果没有实验验证还是不好发文章的。所以一般都会加一些实验验证的。

image

这个文章的主要流程是个这样的:

image

这里我们就基于文章的材料方法来说一下具体的内容：

公共数据获取

文章当中关于公共数据获取部分提到了这些东西。

作者使用了GEO数据库来进行候选数据筛选。关于GEO数据库可见帖子：GEO数据库介绍 (一)

作者这GEO里面找到了三个芯片，其中描述了这三个芯片的平台。关于芯片平台的描述可见帖子GEO数据集详细介绍。

差异表达分析

image

作者使用了GEO2R来进行数据的筛选，关于GEO2R的使用可见：GEO2R差异表达分析软件

通过对三个数据集的筛选，作者通过Venn图来进行取交集。至于为什么是取交集而不是一起分析，这个可以参考文章：GEO数据库可能遇到的问题。

富集分析

image

接着作者对差异表达的基因进行了富集分析，其中包括GO分析和KEGG分析。关于GO和KEGG的内容，可见：GO分析和KEGG分析都是啥？。对于基因的富集分析，这个文章使用的是最常见的ORA的分析方法，具体关于基因富集的分类可以参考文章: 基因富集分析算法介绍

作者使用的富集分析的软件是DAVID，这个软件我们也吐槽过说，更新不及时，不是很好用，所以推荐是WebSestalt富集分析软件，或者clusterprofiler。

蛋白相互作用分析

image

作者通过STRING数据库进行了蛋白相互作用分析预测，关于STRING数据库的使用可以参考文章：STRING：蛋白相互作用数据库的使用。

基于蛋白相互作用网络的degree，关于如何来筛选核心基因这个可以参考:相互作用网络分析基础。作者筛选了前10的基因。文中作者使用的cytoscape来进行筛选的，但是其实通过excel也是得到结果的，这个可见：核心基因筛选：基于EXCEL。

TCGA数据库验证

再往下作者做的其实是TCGA的数据库验证，但是在材料方法里面没写。我们可以在结果当中具体的过程。

image

对于肿瘤研究，现在如果只是用GEO数据集分析，不用TCGA再看一下的话，都觉得不好意思，所以一般的肿瘤研究可能都会用到TCGA的验证的。其目的也就类似于多加了一个数据集来增加结果准确性。但是对于TCGA有些肿瘤正常样本很少。分析的结果可能偏差更大。文章使用的GEPIA的数据库。这个数据库对于查询TCGA表达结果还是很好用的，简单上手。

核心基因甲基化相关分析

image

在核心基因选择之后，作者利用了TCGA的甲基化数据MEXPRESS来查看基因的甲基化水平有没有变化。这个我们数据库正好我们也总结过，大家可以看：[数据库介绍]MEXPRESS:TCGA甲基化分析数据库。由于版本的更新。现在的这个数据库的2.0版本的结果会比之前的更加详细一些。写在最后以上就是这篇文章所有的除了基本一些实验验证的所有分析过程。总体下来分析过程其实不难，要是想要模仿的同学可以试着来分析一下啦！