# 程序功能
# 下载GEO数据,主要针对芯片数据
# 提取分组信息并保存
# 提取表达矩阵并保存
# 保存原始GSE文件,供下一步注释
rm(list=ls())
path = "D:\\myresearch\\GEO"
setwd(path)
library(GEOquery)
library(stringr)
select <- dplyr::select
options(stringsAsFactors = F)
#在调用as.data.frame的时,将stringsAsFactors设置为FALSE可以避免character类型自动转化为factor类型
select <- dplyr::select
# 手动设置GSE号
gse_id <- "GSE197132"
Sys.setenv("VROOM_CONNECTION_SIZE"=131072*6)
sub_path <- str_c(c(path,"\\",gse_id),collapse ="")
dir.create(sub_path)
setwd(sub_path)
# 分类存放数据,养成良好习惯
dir.create("data")
gse <- getGEO(gse_id,destdir = ".\\data",getGPL = F) # 同时下载了GPL文件
exprSet <- exprs(gse[[1]]) # 基因表达矩阵
dim(exprSet)
head(exprSet)
pdata<- pData(gse[[1]]) # 分组信息,原始文件地址等
# write.csv(exprSet,paste0(".\\data\\",gse_id,"_exprSet.csv")) # 写入csv文件
# write.csv(pdata,paste0(".\\data\\",gse_id,"_metadata.csv"))
# saveRDS(gse,file = paste0(".\\data\\",gse_id,"_gse.rds"))
save(gse,exprSet,pdata,file = paste0(".\\data\\",gse_id,"_gse.RData"))
# 查看平台号,需要手动完成
gse$GSE197132_series_matrix.txt.gz@annotation
网友评论