生信分析 | 大数据下的生物信息学与医学

作者: 科研侠 | 来源:发表于2021-10-27 18:17 被阅读0次

生物信息学数据分析生信技能树免费做了
生信分析 | 大数据下的生物信息学与医学
TCGA数据分析系列（二）：UALCAN数据库
生信数据挖掘沦为论文灌水工具，你认同这个观点吗？
TCGA数据分析系列（二）：LinkedOmics
Python进行常见序列处理（持续更新）
TCGA数据分析系列（一）
跟着Nature Communications绘制eQTL相关图
一张思维导图帮你看懂生物信息数据来源及产生途径
生物信息学理论与医学实践李霞主编

本文主要介绍了大数据时代下生物信息学与医学之间的紧密联系，如何通过大数据来获取我们感兴趣的基因，以及如何处理这些基因以得到我们想要的生物标志物。

生物信息学与医学的紧密联系

随着生物信息学和医学的不断发展以及大数据时代的到来，人们已经不只满足于在组织细胞层面的研究了，开始向分子医学层面的研究转变。这极大程度地推动了生物信息学与医学之间的相互发展。

疾病的发生、发展过程是一个多基因参与的、复杂的生物学过程，如果仅从传统医学中的依据病理类型、临床分期和患者年龄、性别的等这些临床特征治疗的话，效果可能达不到预期效果。这时可以通过生物信息学技术从分子层面来研究治疗机理。

生物信息学是一种以计算机为工具，对收集DNA、蛋白质、生物信息等进行分析、收集、整理的学科，在一定程度上从分子层面揭示了疾病潜在的作用方式和发生机制。例如通过生物信息学分析可以寻找到与疾病相关的潜在基因、miRNA、lncRNA等。这为一些重大疾病，如心脑血管疾病、肿瘤、感染性疾病等的治疗机理提供了基础。

寻找与疾病相关的标志基因

要知道的是，一个疾病的发生可能与数以万计的基因，蛋白质的等有关，我们不可能一个一个地判断他们是否与该疾病有关，是否是该疾病的致病基因。

从以上图可以看出，一个与疾病相关的数据集中有三万基因是很正常的。这个时候我们就要通过差异分析、富集分析、PPI网络等来判断一些差异基因与疾病的关系。

在大数据时代的影响下，很多病人的数据都会储存在数据库中，我们可以在前人的研究基础上进行二次研究，发现更多与该疾病相关的潜在基因。

如何使用差异分析来减少工作量

我们可以在GEO数据库（www.ncbi.nlm.nih.gov/geo/）中下载我们感兴趣的GSE数据集，数据集中一般会包含病人样本和正常样本，通过病人和正常人的对比我们可以很明确的发现在该疾病发病过程中参与的基因，使用R语言进行差异分析我们可以得到一些上调基因和下调基因（上调即在发病过程中表达显著的基因，下调与前者相反），成功地将几万基因的研究变成了几十几百个基因的研究，大大增加了研究效率。

接下来还可以通过富集分析研究相关通路，通过PPI网络发现差异基因之间的关系，使用miRNA，lncRNA预测工具等来预测与差异基因相关的miRNA和lncRNA。

举个例子

我们以一篇发表在Front Cardiovasc Med（影响因子为6.052）的论文Predicting Diagnostic Gene Biomarkers Associated With Immune Infiltration in Patients With Acute Myocardial Infarction为例：