美文网首页GEO数据库
四文搞定GEO数据库转录组差异分析之简介

四文搞定GEO数据库转录组差异分析之简介

作者: 生命数据科学 | 来源:发表于2022-12-02 20:09 被阅读0次

本文主要为后续的GEO挖掘与分析做铺垫,GEO数据库的入门级介绍。官网:https://www.ncbi.nlm.nih.gov/geo/

上图为后续介绍的总体脉络,可根据此进行系统学习。

1. 数据存放规律

总结版:一次检索可以得到多个GSEGEO Series(GSE)
GSE:有着完整实验设计的研究系列,一个GSE由多个GSM组成GEO Sample(GSM)每个GSM代表一个测序样本GEO Platform(GPL)GSE所使用的测序平台(可以得到芯片的类型或者二代测序仪的型号)GEO Dataset(GDS)不常用多个GSM整合后得到GDS啰嗦一句:GPL为芯片时,GPL的作用为注释探针(差异分析第二篇会讲);GPL为二代测序时,基本不用看。

2. 数据所在位置、下载方式、下载结果的解读

1.GSE页面进入方式(2个)(1)每个GSE都有个编号 GSExxx,在官网(https://www.ncbi.nlm.nih.gov/geo/)输入GSExxx即可进入(以GSE189086)为例:

图片 (2)也可以点击搜索页面的标题即可进入系列页面: 图片

下载:
(1)Series Matrix下载在GSE页面的最下方有三种下载格式。(一般选择txt格式进行下载

下载后文件的解读:下载后的txt.gz文件共包括3部分(测序数据仅包含前两个部分):

  1. 研究来源信息(研究机构、研究者、发表时间、相关文献等)

  2. 每个样本的characteristics(组织来源、处理方式、处理时间等)

  3. 表达谱矩阵(每列代表一个样本,每行代表一个探针,探针注释后转化为基因)

(2)GPL下载(芯片数据用,包含芯片探针的注释信息)

图片

GPL文件下载后的具体内容:

第一列为探针信息,最后一列为对应的基因信息

此处分为两种情况:

  1. 如上图所示,gene symbol并未详细给出来的,需要使用ID转化或者正则表达式提取。

  2. GPL下载后有单独一列gene symbol列,可直接用于gene注释

(3)supplementary file 下载

总结:

GEO中数据分布是较为系统的,但因为不同作者上传材料的完整度不同,导致分析流程也略有差异,特此整个转录组分析流程总结如下:

3. 说在最后

感谢能看到最后的读者,此文为整个GEO数据库的转录组挖掘四部曲中的第一部分,可能略有粗糙,不足之处还请各位批评指正,若有相关问题可在后台留言,尽量及时解决。

相关文章

网友评论

    本文标题:四文搞定GEO数据库转录组差异分析之简介

    本文链接:https://www.haomeiwen.com/subject/erbufdtx.html