今天尝试下载GSE41271这个数据集,但是getGEO之后一直没有反应,因此找了个别的办法,尝试了一下。
> library(AnnoProbe)
> eset=AnnoProbe::geoChina(GEO)
trying URL 'http://49.235.27.111/GEOmirror/GSE41nnn/GSE41271_eSet.Rdata'
Content type 'application/octet-stream' length 19285192 bytes (18.4 MB)
downloaded 18.4 MB
file downloaded in D:/Learning/Bio/TCGA-LUAD
you can also use getGEO from GEOquery, by
getGEO("GSE41271", destdir=".", AnnotGPL = F, getGPL = F)
这样就把表达矩阵下载下来了,但是注释信息还得想想办法。如果还是从getGEO这个函数下载的话好像不太靠谱。虽然印象里也可以下载GPL文件。
不过这次没有用getGEO,而是直接去GEO官网找到了GPL6884平台的注释文件。
下载下来是一个25M的txt文件,记事本卡死了好几次。所以把txt拖到Chrome里面看了一下,前面几行是#开头的注释行。所以用read.delim函数跳过注释行
> a <- read.delim(file="./step7_validation/GPL6884-11607.txt",
+ comment.char = "#")
> head(a)
ID Species Source Search_Key Transcript
1 ILMN_1825594 Homo sapiens Unigene ILMN_89282 ILMN_89282
2 ILMN_1810803 Homo sapiens RefSeq ILMN_35826 ILMN_35826
3 ILMN_1722532 Homo sapiens RefSeq ILMN_25544 ILMN_25544
4 ILMN_1884413 Homo sapiens Unigene ILMN_132331 ILMN_132331
5 ILMN_1906034 Homo sapiens Unigene ILMN_105017 ILMN_105017
6 ILMN_1861479 Homo sapiens Unigene ILMN_75398 ILMN_75398
ILMN_Gene Source_Reference_ID RefSeq_ID Unigene_ID
1 HS.388528 Hs.388528 Hs.388528
2 LOC441782 XM_497527.2 XM_497527.2
3 JMJD1A NM_018433.3 NM_018433.3
4 HS.580150 Hs.580150 Hs.580150
5 HS.540210 Hs.540210 Hs.540210
6 HS.116531 Hs.116531 Hs.116531
Entrez_Gene_ID GI Accession Symbol
1 NA 23525203 BU678343
2 441782 89042416 XM_497527.2 LOC441782
3 55818 46358420 NM_018433.3 JMJD1A
4 NA 7376124 AW629334
5 NA 5437312 AI818233
6 NA 20360910 BQ185359
这样就得到了注释信息,可以对前面的表达矩阵进行注释了。
> b = eset[[1]]
> raw_exprSet=exprs(b) #表达矩阵
网友评论