1.下载安装GEOquery包
options(stringsAsFactors = F)##避免将character转换为因子
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
if(!require("GEOquery")) BiocManager::install("GEOquery")
library(GEOquery)
library(dplyr)
#browseVignettes("GEOquery")##获取帮助
2.下载GEO数据xxxx
gse <- getGEO("GSExxxx, GSEMatrix = TRUE)
show(gse)
如果报错
Error in open.connection(x, "rb") :
Failed to connect to ftp.ncbi.nlm.nih.gov port 443: Operation timed out
可以刷新重试可以解决,无需紧张(我查过其他原因,暂未找到原因,可能是网络连接不好吧)
3.提取表达矩阵及metadata
class(gse)
str(gse)
a<-gse[[1]]
b<-gse[[2]]
class(gse[[1]])##ExpressionSet
##提取第一个数据集的phenodata
dim(pData(gse[[1]]))
metdata<-pData(gse[[1]])
metdata[1:5,1:5]
colnames(metdata)##phenodata信息很多,但用得上的很少
##提取第一个表达矩阵
expma<-exprs(a)
dim(expma)
expma[1:5,1:5]
save(metdata,expma,file = "expma.Rdata")
结果:
GSM188013 GSM188014 GSM188016 GSM188018 GSM188020
1007_s_at 15630.200 17048.800 13667.500 15138.800 10766.600
1053_at 3614.400 3563.220 2604.650 1945.710 3371.290
117_at 1032.670 1164.150 510.692 5061.200 452.166
121_at 5917.800 6826.670 4562.440 5870.130 3869.480
1255_g_at 224.525 395.025 207.087 164.835 111.609
网友评论