美文网首页
GEO文件 提取matrix 指针匹配

GEO文件 提取matrix 指针匹配

作者: yadandb | 来源:发表于2021-02-10 17:15 被阅读0次

    之前提到了matrix。。见https://www.jianshu.com/p/a7e298044746

    GPL570 <- getGEO("GPL570",destdir = ".")
    
    可能是指针那一步有问题所以是datatable是空的

    那么,去geo网站直接下载对应的gpl
    https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi
    (文件有点大,需要等等等……)

    Anno570= read.table("GPL570-55999.txt",sep="\t",quote="",as.is=TRUE,header = TRUE)
    #这里又卡了一会子,发现quote=""不能少。。。
    

    提取出gene symbol,entrezid


    probe-symbol-entrez

    接着,转换成symbol做行名的matrix,完成!
    需要做以下几步:

    1. symbol 提取 /// 之前的那一个
    2. 合并重复的symbol

    关键代码如下

    sym=dfbone2$symbol
    sym2=vector(length=54675)
    for(i in 1:54675){
      sym2[i]=strsplit(sym[i],split=' /// ')[[1]][1]
    }#取了前一个symbol #45782  8893无symbol
    
    #合并重复的symbol——求和
    dfbone5=aggregate(dfbone4[,2:11],by=list(symbol=dfbone4$symbol),FUN="sum")#22880
    rownames(dfbone5)=dfbone5$symbol
    
    大功告成

    相关文章

      网友评论

          本文标题:GEO文件 提取matrix 指针匹配

          本文链接:https://www.haomeiwen.com/subject/udfkxltx.html