说到发文章,相信大家公认的套路都是“找分子-养细胞-养老鼠“的湿实验套路,这样的实验一旦做起来,至少都要耗掉1-2年的宝贵时间。那有没有什么发文章的捷径,无需做实验,无需花钱,无需耗费大量宝贵青春,轻松发表SCI文章,走上人生巅峰呢?答案是:有!
癫疯现今到处可见“大数据”和“数据挖掘”的热门词汇,在我们的身边有大量宝贵的生物医学大数据,如果能够加以合理利用,几天时间完成一篇SCI文章也绝非难事。
从本篇推文起,科研猫 微信公众号将带领大家学习生物医学领域内的大数据挖掘。第一课从一个相对简单,而又非常重要的数据库入手:GEO (Gene Expression Ominibus)。
基因表达数据库 (GeneExpression Omnibus, GEO)隶属于美国国立卫生研究院的NCBI。GEO(www.ncbi.nlm.nih.gov/geo/)是当今最大、最全面的公共基因表达数据资源。目前GEO数据库中共包含了近11万个数据集,约290万个标本,是一个极其庞大的巨无霸型公共数据库。GEO中主要存储了关于基因表达谱的数据,其中一大部分是芯片(microarray)和测序(RNA sequencing)的数据,有mRNA的,也有lncRNA和miRNA的,还包含一部分甲基化和SNP array的数据。
GEO首页GEO作为一个公共数据库资源,对我们所有人都是公开免费的,近几年来使用GEO进行数据挖掘发出来的SCI文章也是日趋增多,可谓爆发式增长。为了证明GEO在数据挖掘当中的重要性和普适性,我们用“GEO“、“Data mining”和”TCGA“这三个关键词分别在PubMed中进行搜索,统计从1991年迄今为止每年的相关文章数量,其结果如下图所示。可以看出,自2008年开始,有关GEO数据挖掘的文章呈现为指数爆发,从每年不到100篇,到每年3000篇以上。相对另一个重要的肿瘤数据库TCGA而言,GEO的相关文章可谓遥遥领先。
带大家了解了背景和“行情”后,现在我们开始正式的学习吧。
首先,先来看看GEO数据库的构成。GEO当中的数据主要分为两大类:用户提交的数据和GEO整理后的数据。其中,用户在提交数据的时候,GEO对数据定义了以下几个概念:Sample (样本),Series(系列)和Platform(平台)。
其中“Sample”可以理解为被检测的样本;“Series”可以理解为一项研究中多个样本构成的数据集;而“Platform”可以理解为检测样本表达时所用的芯片/检测方法。GEO要求上传者在上传数据的时候,必须提供以上的这些信息。GEO在得到用户上传的数据之后,将产生DataSet和Profile两类数据。
GEO首先把提交的样本集中到有生物学意义和统计学上可比较的GEO数据集组(DataSets),能够提供关于一个实验的相关更改,作为下游数据挖掘和数据显示工具的基础。而表达谱(Profile)则来自于DataSets基因表达谱信息,其存储了单个基因表达的数据资料。
了解了GEO的构成,后续就是如何分析里面的数据了。为了方便用户对数据进行初步的分析,GEO本身就提供了如GEO2R及聚类、箱线图、基因查找等工具,这些分析工具可以为我们提供关于数据信息的初步挖掘结果,但是如果想要深入探讨临床表型与基因表达的相关性,或者筛选出发挥重要调控作用的核心基因出来,GEO自带的分析工具就显得有些捉襟见肘了。后面的课程中,我们会带领大家一步步学习如何由浅入深地分析GEO当中的数据,实现较为复杂的挖掘和绘图,正如下图所示的层次聚类、火山图、主成分分析等高级操作。敬请关注。
学习更多生物信息及数据挖掘相关内容,下方点喜欢,给你更多好看。
别忘记为师兄点个喜欢哦
微信扫一扫
关注该公众号
网友评论