GEO数据库挖掘（1）--SCI文章速成

作者: fc7587d03c83 | 来源:发表于2019-03-02 16:24 被阅读6次

【科研猫】GEO数据库挖掘（2）--快速锁定目标数据
GEO数据库挖掘（1）--SCI文章速成
【科研猫】GEO数据库挖掘（1）--SCI文章速成
【科研猫·绘图】优雅版·小提琴图（带R代码分享）
GEO数据挖掘生物信息文章解读（拟南芥重金属
挖掘GEO速成SCI文章系列教程（3）-R语言基础
GEO数据库甲基化芯片挖掘发SCI是怎样炼成的
2019-11-06GEO数据库挖掘：多芯片联合分析教程
R语言绘制KEGG富集分析气泡图
GEO数据库-ID转换系列(一)

说到发文章，相信大家公认的套路都是“找分子-养细胞-养老鼠“的湿实验套路，这样的实验一旦做起来，至少都要耗掉1-2年的宝贵时间。那有没有什么发文章的捷径，无需做实验，无需花钱，无需耗费大量宝贵青春，轻松发表SCI文章，走上人生巅峰呢？答案是：有！

癫疯

现今到处可见“大数据”和“数据挖掘”的热门词汇，在我们的身边有大量宝贵的生物医学大数据，如果能够加以合理利用，几天时间完成一篇SCI文章也绝非难事。

从本篇推文起，科研猫 微信公众号将带领大家学习生物医学领域内的大数据挖掘。第一课从一个相对简单，而又非常重要的数据库入手：GEO (Gene Expression Ominibus)。

基因表达数据库 (GeneExpression Omnibus, GEO)隶属于美国国立卫生研究院的NCBI。GEO（www.ncbi.nlm.nih.gov/geo/）是当今最大、最全面的公共基因表达数据资源。目前GEO数据库中共包含了近11万个数据集，约290万个标本，是一个极其庞大的巨无霸型公共数据库。GEO中主要存储了关于基因表达谱的数据，其中一大部分是芯片（microarray）和测序（RNA sequencing）的数据，有mRNA的，也有lncRNA和miRNA的，还包含一部分甲基化和SNP array的数据。

GEO首页

GEO作为一个公共数据库资源，对我们所有人都是公开免费的，近几年来使用GEO进行数据挖掘发出来的SCI文章也是日趋增多，可谓爆发式增长。为了证明GEO在数据挖掘当中的重要性和普适性，我们用“GEO“、“Data mining”和”TCGA“这三个关键词分别在PubMed中进行搜索，统计从1991年迄今为止每年的相关文章数量，其结果如下图所示。可以看出，自2008年开始，有关GEO数据挖掘的文章呈现为指数爆发，从每年不到100篇，到每年3000篇以上。相对另一个重要的肿瘤数据库TCGA而言，GEO的相关文章可谓遥遥领先。

带大家了解了背景和“行情”后，现在我们开始正式的学习吧。

首先，先来看看GEO数据库的构成。GEO当中的数据主要分为两大类：用户提交的数据和GEO整理后的数据。其中，用户在提交数据的时候，GEO对数据定义了以下几个概念：Sample (样本)，Series（系列）和Platform（平台）。

其中“Sample”可以理解为被检测的样本；“Series”可以理解为一项研究中多个样本构成的数据集；而“Platform”可以理解为检测样本表达时所用的芯片/检测方法。GEO要求上传者在上传数据的时候，必须提供以上的这些信息。GEO在得到用户上传的数据之后，将产生DataSet和Profile两类数据。

GEO首先把提交的样本集中到有生物学意义和统计学上可比较的GEO数据集组（DataSets），能够提供关于一个实验的相关更改，作为下游数据挖掘和数据显示工具的基础。而表达谱（Profile）则来自于DataSets基因表达谱信息，其存储了单个基因表达的数据资料。

了解了GEO的构成，后续就是如何分析里面的数据了。为了方便用户对数据进行初步的分析，GEO本身就提供了如GEO2R及聚类、箱线图、基因查找等工具，这些分析工具可以为我们提供关于数据信息的初步挖掘结果，但是如果想要深入探讨临床表型与基因表达的相关性，或者筛选出发挥重要调控作用的核心基因出来，GEO自带的分析工具就显得有些捉襟见肘了。后面的课程中，我们会带领大家一步步学习如何由浅入深地分析GEO当中的数据，实现较为复杂的挖掘和绘图，正如下图所示的层次聚类、火山图、主成分分析等高级操作。敬请关注。

学习更多生物信息及数据挖掘相关内容，下方点喜欢，给你更多好看。

别忘记为师兄点个喜欢哦

微信扫一扫

关注该公众号

【科研猫】GEO数据库挖掘（2）--快速锁定目标数据
在上一期的推文【科研猫】GEO数据库挖掘（1）--SCI文章速成 - 简书我们讲解了关于GEO数据库的背景知识，想...
GEO数据库挖掘（1）--SCI文章速成
说到发文章，相信大家公认的套路都是“找分子-养细胞-养老鼠“的湿实验套路，这样的实验一旦做起来，至少都要耗掉1-2...
【科研猫】GEO数据库挖掘（1）--SCI文章速成
最近这段时间，相信好多人都在忙着写国自然标书，一晃2020年的2月份已经过去，今年只剩下10个月了，留给我们的时间...
【科研猫·绘图】优雅版·小提琴图（带R代码分享）
课前准备，R语言的安装和配置都OK了吗？生物信息系列课程-R语言入门；挖掘GEO速成SCI文章系列教程（3）-R语...
GEO数据挖掘生物信息文章解读（拟南芥重金属
前面我们介绍了GEO数据挖掘的文章（更多见文末链接），大多数都为人类癌症相关的数据挖掘，其实GEO数据库中也有很多...
挖掘GEO速成SCI文章系列教程（3）-R语言基础
前面的课程中，我们学习了GO/KEGG功能富集分析的操作步骤，并给大家演示了如果使用R语言绘制高级气泡图。之后，同...
GEO数据库甲基化芯片挖掘发SCI是怎样炼成的
今天，我将为大家解读一篇3.96分的SCI，借此来学习GEO数据库甲基化芯片发SCI的套路，文章的题目是：Aber...
2019-11-06GEO数据库挖掘：多芯片联合分析教程
GEO数据库挖掘：多芯片联合分析教程
R语言绘制KEGG富集分析气泡图
2018年SCI论文--整合GEO数据挖掘完整复现七：DAVID在线工具进行KEGG富集分析_bioprogr...
GEO数据库-ID转换系列(一)
GEO数据库-ID转换系列(一) 作者：jzhang 前言：我们都知道很多人在进行GEO数据库挖掘的时候，首先遇到...