GEO数据库是啥?
基因表达数据库(gene expression omnibus,GEO)
GEO是由美国国立生物技术信息中心(national center for biotechnology information ,NCBI)开发和维护的公共数据库,它存储基因芯片数据、新一代测序数据以及其他形式的高通量功能基因组数据,并将其发布供研究者自由使用。
目前GEO存储了约20000项研究得到了涉及50 0000样本,1300个物种,330亿单个基因的表达检测数据,这些数据是由世界各地的8000多个实验室提供的。GEO 数据库可以通过pubmed入口进行检索(见下图),也可以直接通过GEO库官网点击网址 进行检索。其检索界面见下图:
GEO检索界面.jpgGEO检索界面基本信息
接下来简单的介绍一下GEO检索界面的基本信息,以cervical为例。
在这里我要特别重点介绍一下左侧的两个检索结果限定选项。(1)数据记录类型:导入GEO的数据类型主要分为四种:datasets,series,sample和platforms,根据自己的需要选择,我们最常用的是series数据集。(2)检测类型:不同的实验检测类型不同,例如:DNA,mRNA,SNP,甲基化等,在检索时要结合自己的实验设计选择相应的检测类型。
最后,谢谢各位伙伴的支持,我是青盐,一个自学生信,并致力于在新疆推广生信分析技能的菜鸟,今天给大家分享的内容是使用R语言挖掘GEO数据库的基础知识部分,随后我会以一篇SCI文章为例,以案例结合知识点的方式给大家分享如何使用R语言挖掘GEO数据库,青盐在这里与每一位生信自学者共学,共勉,加油加油。
网友评论