本文主要为后续的GEO挖掘与分析做铺垫,GEO数据库的入门级介绍。官网:https://www.ncbi.nlm.nih.gov/geo/
上图为后续介绍的总体脉络,可根据此进行系统学习。
1. 数据存放规律
总结版:一次检索可以得到多个GSEGEO Series(GSE)
GSE:有着完整实验设计的研究系列,一个GSE由多个GSM组成GEO Sample(GSM)每个GSM代表一个测序样本GEO Platform(GPL)GSE所使用的测序平台(可以得到芯片的类型或者二代测序仪的型号)GEO Dataset(GDS)不常用多个GSM整合后得到GDS啰嗦一句:GPL为芯片时,GPL的作用为注释探针(差异分析第二篇会讲);GPL为二代测序时,基本不用看。
2. 数据所在位置、下载方式、下载结果的解读
1.GSE页面进入方式(2个)(1)每个GSE都有个编号 GSExxx,在官网(https://www.ncbi.nlm.nih.gov/geo/)输入GSExxx即可进入(以GSE189086)为例:
下载:
(1)Series Matrix下载在GSE页面的最下方有三种下载格式。(一般选择txt格式进行下载)
下载后文件的解读:下载后的txt.gz文件共包括3部分(测序数据仅包含前两个部分):
-
研究来源信息(研究机构、研究者、发表时间、相关文献等)
-
每个样本的characteristics(组织来源、处理方式、处理时间等)
-
表达谱矩阵(每列代表一个样本,每行代表一个探针,探针注释后转化为基因)
(2)GPL下载(芯片数据用,包含芯片探针的注释信息)
GPL文件下载后的具体内容:
第一列为探针信息,最后一列为对应的基因信息
此处分为两种情况:
-
如上图所示,gene symbol并未详细给出来的,需要使用ID转化或者正则表达式提取。
-
GPL下载后有单独一列gene symbol列,可直接用于gene注释
(3)supplementary file 下载
总结:
GEO中数据分布是较为系统的,但因为不同作者上传材料的完整度不同,导致分析流程也略有差异,特此整个转录组分析流程总结如下:
3. 说在最后
感谢能看到最后的读者,此文为整个GEO数据库的转录组挖掘四部曲中的第一部分,可能略有粗糙,不足之处还请各位批评指正,若有相关问题可在后台留言,尽量及时解决。
网友评论