美文网首页生信学习
2020-02-08 Day 23 学习GEO数据库中ID转换

2020-02-08 Day 23 学习GEO数据库中ID转换

作者: 卅衣 | 来源:发表于2020-02-09 00:09 被阅读0次

    GEO数据库中下载GSE数据后有时候会没有gene symbol
    然后需要将下载文件中的ID转换为gene symbol
    下载平台文件GPLXXX 在其中找到基因序列

    image.png

    然后将文件中的ID与平台文件中ID进行转换

    首先下载安装GEOquery包

    需要在R中安装GEOquery包 代码如下
    if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
    BiocManager::install(version='devel')
    BiocManager::install("GEOquery")

    下载平台文件和提取ID

    1 library(GEOquery)
    2 GPLXXX <-getGEO('GPLXXX',destdir =".")
    下载很慢
    3 GPLXX_anno <- Table(GPLXX)

    library(dplyr)
    library(tidyr)
    XX <- GPLXX_anno %>%
    select(ID,gene_assignment) %>%
    filter(gene_assignment != "---") %>%
    separate(gene_assignment,c("drop","symbol"),sep="//") %>%
    select(-drop)


    image.png

    得到ID 和symbol对应关系

    数据文件ID与gene symbol转换

    names(源文件)[1] <- names(XX)[1]
    源文件ID<- as.character(源文件ID)

    library(dplyr)

    源文件<- 源文件 %>%

    • inner_join(XX,by="ID") %>%
    • select(-ID) %>%
    • select(symbol, everything()) %>%
    • mutate(rowMean =rowMeans(.[grep("GSM", names(.))])) %>%
    • arrange(desc(rowMean)) %>%
    • distinct(symbol,.keep_all = T) %>%
    • select(-rowMean) %>%
    • tibble::column_to_rownames(colnames(.)[1])
      write.csv(GSE88720,"cac.csv")



      X

      这篇学自果子学生信

    相关文章

      网友评论

        本文标题:2020-02-08 Day 23 学习GEO数据库中ID转换

        本文链接:https://www.haomeiwen.com/subject/bbrwxhtx.html