最近在学习处理芯片数据,遇到一个问题就是芯片数据和基因ID之间的对应问题。不然感觉自己做出的东西没有办法分析。
先来看一下芯片探针与基因直接的关系:
·探针组与基因关系:芯片数据得到的表达矩阵,实际上是以探针组为单位,而不是直接以基因为单位,每一行对应一个探针组的表达量。后期的分析都是先得到探针组的结果,然后根据注释的ID映射才对应到基因。一般是一个基因同时对应多个探针组。通常会把同一个基因对应的探针组表达量求均值,然后找最大的那个探针组作为代表,让它与该基因一一对应。【1】
一般来说,RNA-seq可以发现新的基因,而芯片是对已知基因的分析。所以我发现有些我想要的基因在我芯片注释文件中找不到,所以芯片数据还是寻找新做的会比较好。
在NCBI上找到自己的数据的GPL或者stof文件,里面有相应的注释信息。
我的代码(大部分参考别人):【2】
ff <- "GSE36272_family.soft.gz"
nn <- grep("^[^#!^]", readLines(ff))[1] - 1
pfinfo <- read.table(ff, sep = "\t", quote = "", header = TRUE, skip = nn, fill = TRUE)
colnames(pfinfo)
pfinfo<-pfinfo[,c(1,11,12)]
pfinfo
del <- grep("AFFX",rownames(pfinfo))
pfinfo <- pfinfo[-del,]
write.csv(pfinfo,"pfinfo-2.csv",sep=",")
可惜我的找到芯片数据有点老,好多我想分析的基因都没有,sad~
参考:
【1】https://www.jianshu.com/p/3800af7ddd04
【2】https://blog.csdn.net/u014801157/article/details/66974577
之后会不定时的写自己之前大创的基因家族分析和现在做的芯片分析~ 坚持学习啊!
网友评论