美文网首页GEO数据挖掘生信学习
GEO上都是芯片数据吗?GSE开头的都是芯片吗

GEO上都是芯片数据吗?GSE开头的都是芯片吗

作者: Seurat_Satija | 来源:发表于2021-01-17 11:13 被阅读0次

    看过很多GEO数据挖掘的教程,一直都是芯片数据举例。我自己也根据流程(Taolu)分析过好几个geo芯片数据。一直有个疑惑,

    GEO上都是芯片数据吗?

    GSE开头的都是芯片数据吗?

    今天在大神健明老师的敦促下,我又一次打开熟悉又陌生的GEO页面。重新读一下GEO数据库的介绍。熟悉是因为这个页面我打开过不止百次了,陌生是因为从没认真读过这个页面的内容。


    image.png

    开篇第一句就写了芯片和测序数据我们都是接受的。
    但是我看到的GEO挖掘实例都是芯片为例。没见过GEO上的测序数据是啥样。所以这也是导致我产生这个错觉的主要原因。我需要找到一个不是芯片的例子来看看。毕竟眼见为实嘛。于是我开始搜索。希望找到GEO数据的一些存放规律。

    1.解读GEO数据存放规律及下载,一文就够

    首先看到了健明老师这一篇,开篇就说了

    GEO数据库起先只是为表达芯片数据准备的,后期纳入了各种NGS组学数据,文章里面会给出数据地址,GSE ID号,由此我们就可以进入GEO数据库,进而了解它!

    image.png

    其实只需要理解下面的4个概念。
    GEO Platform (GPL)
    GEO Sample (GSM)
    GEO Series (GSE)
    GEO Dataset (GDS)
    理解起来也很容易。一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS,不过GDS本身用的很少。而每个数据集都有着自己对应的芯片平台,就是GPL。

    然后还是芯片挖掘的例子

    2.从GEO数据库下载得到表达矩阵 一文就够

    然后又看到了这一篇,文中提到geo上的illumina测序芯片。这个illumina我是知道的,这个公司就是二代测序的代表,有点靠近转录组的意思了。

    image.png

    3.GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序

    最终定位到这一篇解决了我的疑惑。

    那如果是RNA-seq测序数据呢?
    通常呢,RNA-seq测序数据并不会把其表达矩阵存储在Series Matrix File(s) 里面,所以 你使用我的标准代码:

    rm(list = ls())  ## 魔幻操作,一键清空~
    options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为FALSE可以避免character类型自动转化为factor类型
    # 注意查看下载文件的大小,检查数据 
    f='GSE103611_eSet.Rdata'
    # https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE103611
    library(GEOquery)
    # 这个包需要注意两个配置,一般来说自动化的配置是足够的。
    #Setting options('download.file.method.GEOquery'='auto')
    #Setting options('GEOquery.inmemory.gpl'=FALSE)
    if(!file.exists(f)){
      gset <- getGEO('GSE103611', destdir=".",
                     AnnotGPL = F,     ## 注释文件
                     getGPL = F)       ## 平台文件
      save(gset,file=f)   ## 保存到本地
    }
    load('GSE103611_eSet.Rdata')  ## 载入数据
    class(gset)  #查看数据类型
    length(gset)  #
    class(gset[[1]])
    gset
    # assayData: 352859 features, 48 samples
    

    比如对 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE106292 上面的代码就拿不到表达矩阵

    因为,这个是RNA-seq数据,作者会把自己的表达矩阵变成Excel表格,方便大家探索!

    image.png

    记住,我这里强调了是作者自己的表达矩阵,因为RNA-seq数据分析流程还不一样!参数不一样,软件不一样,数据库不一样,而且最后的表达矩阵的表现形式又不一样!是原始的counts还是RPKM,TPM都不一样!如果作者确实不上传其表达矩阵,你也没办法,只能是自己走RNA-seq数据分析流程:

    image.png

    这里面的知识细节太复杂了,我就不一一展开!建议大家看我们阅读量过10万的RNA-seq系列推文,比如:表达矩阵的归一化和标准化,去除极端值,异常值
    然后我想下载下来看看,先用网络下载一个是不完整是空白,换用手机热点,提示需要14天才能下载完

    image.png
    等以后网速好的时候再看好了。至少我已经知道了GEO上是有测序数据的

    相关文章

      网友评论

        本文标题:GEO上都是芯片数据吗?GSE开头的都是芯片吗

        本文链接:https://www.haomeiwen.com/subject/teraaktx.html