GEO数据库网址:http://www.ncbi.nlm.nih.gov/geo
相信大家看到这个网址http://www.ncbi.nlm.nih.gov/都不会陌生,我们经常使用pubmed进行英文文献的检索。所以我们除了直接输入GEO数据库网址,另外一个途径就是通过NCBI界面的GEO DataSets 和GEO Profiles进行GEO的页面。
这里,我们就简单介绍一下GEO数据库,GEO(Gene Expression Omnibus),基因表达综合数据库,收录了微阵列芯片、二代测序及其他形式的高通量基因组数据,最重要的是可以免费下载。GEO数据包括五种,platforms、samples、series、datasets和profiles。
platforms、samples、series、datasets命名都是G+平台缩写+流水号,profiles为流水号。
如platforms为G+PL+number;samples为G+SM+number; series为G+SE+number; datasets为G+DS+number。
GEO数据库包含两个子数据库,分别为GEO DataSets 和GEOProfiles,其中GEO Profiles只能检索Profiles(存储一个个基因在Datasets各分组中的表达谱)。GEO DataSets则是使用比较多的,接下来我们将介绍利用GEO DataSets进行芯片数据的检索。(这些数据库检索速度有点慢,需要耐心等待···)
举例:我们通过GEO Datasets 查询肺癌的m6A甲基化相关芯片数据。首先,我们输入关键词 lung cancer+m6A
通过左侧的那一栏,可以查询到Entry type(数据类型)、选择相应Organism(物种)、实验平台(study type)、Attribute name(样本类型)、及publication datas(出版时间)。
搜索lung cancer+m6A,我们发现数据类型中,Datasets(0),Series(13),Samples
,Platforms(0)。我们打开8条数据(通过搜索出来的信息概要,根据自己需要的筛选相应的信息)。可以看到它相应的Series信息,上面显示的Status(出版时间)、Title(题目)、Organism(物种)、Experiment study(研究实验平台类型)、Summary(概要)、Overalldesign(设计描述)、以及一些作者信息、引用信息、platforms、Samples等。
接下来,我们要对我们搜索的数据进行下载,拉到搜索完成的页面底部,发现有Download family,前面描述过有三种文件格式,分别为SOFT、MINiML、TXT。其中SOFT是TXT格式所有文件结果,MINiML是EXL所有文件结果,这两个数据都比较大,不利于下载分析。我们通常选择Series Matrix Files(txt)下载,这个进过矩阵处理,可以直接用于分析。
直接点击需要下载的文件,以Series Matrix Files为例,点击后跳出相应对话框,点击下载即可。
今天就分享这些,下次再见啦!
网友评论