美文网首页生信学习
2020-02-08 Day 23 学习GEO数据库中ID转换

2020-02-08 Day 23 学习GEO数据库中ID转换

作者: 卅衣 | 来源:发表于2020-02-09 00:09 被阅读0次

GEO数据库中下载GSE数据后有时候会没有gene symbol
然后需要将下载文件中的ID转换为gene symbol
下载平台文件GPLXXX 在其中找到基因序列

image.png

然后将文件中的ID与平台文件中ID进行转换

首先下载安装GEOquery包

需要在R中安装GEOquery包 代码如下
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install(version='devel')
BiocManager::install("GEOquery")

下载平台文件和提取ID

1 library(GEOquery)
2 GPLXXX <-getGEO('GPLXXX',destdir =".")
下载很慢
3 GPLXX_anno <- Table(GPLXX)

library(dplyr)
library(tidyr)
XX <- GPLXX_anno %>%
select(ID,gene_assignment) %>%
filter(gene_assignment != "---") %>%
separate(gene_assignment,c("drop","symbol"),sep="//") %>%
select(-drop)


image.png

得到ID 和symbol对应关系

数据文件ID与gene symbol转换

names(源文件)[1] <- names(XX)[1]
源文件ID<- as.character(源文件ID)

library(dplyr)

源文件<- 源文件 %>%

  • inner_join(XX,by="ID") %>%
  • select(-ID) %>%
  • select(symbol, everything()) %>%
  • mutate(rowMean =rowMeans(.[grep("GSM", names(.))])) %>%
  • arrange(desc(rowMean)) %>%
  • distinct(symbol,.keep_all = T) %>%
  • select(-rowMean) %>%
  • tibble::column_to_rownames(colnames(.)[1])
    write.csv(GSE88720,"cac.csv")



    X

    这篇学自果子学生信

相关文章

网友评论

    本文标题:2020-02-08 Day 23 学习GEO数据库中ID转换

    本文链接:https://www.haomeiwen.com/subject/bbrwxhtx.html