本文主要介绍了大数据时代下生物信息学与医学之间的紧密联系,如何通过大数据来获取我们感兴趣的基因,以及如何处理这些基因以得到我们想要的生物标志物。
生物信息学与医学的紧密联系
随着生物信息学和医学的不断发展以及大数据时代的到来,人们已经不只满足于在组织细胞层面的研究了,开始向分子医学层面的研究转变。这极大程度地推动了生物信息学与医学之间的相互发展。
疾病的发生、发展过程是一个多基因参与的、复杂的生物学过程,如果仅从传统医学中的依据病理类型、临床分期和患者年龄、性别的等这些临床特征治疗的话,效果可能达不到预期效果。这时可以通过生物信息学技术从分子层面来研究治疗机理。
生物信息学是一种以计算机为工具,对收集DNA、蛋白质、生物信息等进行分析、收集、整理的学科,在一定程度上从分子层面揭示了疾病潜在的作用方式和发生机制。例如通过生物信息学分析可以寻找到与疾病相关的潜在基因、miRNA、lncRNA等。这为一些重大疾病,如心脑血管疾病、肿瘤、感染性疾病等的治疗机理提供了基础。
寻找与疾病相关的标志基因
要知道的是,一个疾病的发生可能与数以万计的基因,蛋白质的等有关,我们不可能一个一个地判断他们是否与该疾病有关,是否是该疾病的致病基因。
从以上图可以看出,一个与疾病相关的数据集中有三万基因是很正常的。这个时候我们就要通过差异分析、富集分析、PPI网络等来判断一些差异基因与疾病的关系。
在大数据时代的影响下,很多病人的数据都会储存在数据库中,我们可以在前人的研究基础上进行二次研究,发现更多与该疾病相关的潜在基因。
如何使用差异分析来减少工作量
我们可以在GEO数据库(www.ncbi.nlm.nih.gov/geo/)中下载我们感兴趣的GSE数据集,数据集中一般会包含病人样本和正常样本,通过病人和正常人的对比我们可以很明确的发现在该疾病发病过程中参与的基因,使用R语言进行差异分析我们可以得到一些上调基因和下调基因(上调即在发病过程中表达显著的基因,下调与前者相反),成功地将几万基因的研究变成了几十几百个基因的研究,大大增加了研究效率。
接下来还可以通过富集分析研究相关通路,通过PPI网络发现差异基因之间的关系,使用miRNA,lncRNA预测工具等来预测与差异基因相关的miRNA和lncRNA。
举个例子
我们以一篇发表在Front Cardiovasc Med(影响因子为6.052)的论文Predicting Diagnostic Gene Biomarkers Associated With Immune Infiltration in Patients With Acute Myocardial Infarction为例:
文中有两个数据集,可以看到,数据都是超过两百兆的,很大!
文中通过控制参数得到了25个上调基因和2个下调基因。
得到这些差异基因后,我们就可以对这些基因进行其他的分析来验证关系啦~
在举例的这篇文献中用了很多分析,在这我就举两个我熟悉的吧,想要了解更多的小伙伴可以自己去看看这篇文献哦。
后续分析中,作者使用了功能富集分析来发现在这些基因中起关键作用的生物通路,毕竟只研究单个基因是非常狭隘的。通过功能富集分析能够讲基因分类,以减少分析的复杂度。
作为与医学密切相关的生物信息学,我们在研究时也会使用医学的方法来验证。例如,文中使用了循证医学中的ROC曲线来验证所确定的基因。
—END—
最后
作为一名科研人员,我们不仅要有生物学和医学知识储备,更要有大数据思维,将生物信息学与医学紧密的联系起来,达到更好的研究效果。毕竟,做研究的最终目的是造福人类呀(说的有点大,但话糙理不糙哈哈)!
[参考资料]
[1] 《生物信息学》
图 | 网络
文 | 小吴在线学生信
网友评论