美文网首页
2022-10-01

2022-10-01

作者: 颜嘉树 | 来源:发表于2022-10-01 10:10 被阅读0次

    昨天上午复习了前天学的知识,随后被Deep Learning与生信组合吸引了注意,不过看了一些文献和公众号推送,觉得还是不能太理解。

    下午继续写开题报告,下载了很多关于蛋白质组学的毕业论文,理清了思路,大概完成了框架。

    晚上开始学习生信,昨天主要是一些代码的学习。

    GEO数据的下载和提取(摘取自生信技能树):

    #数据下载

    rm(list = ls())

    options(stringsAsFactors = F)

    library(GEOquery)

    gse = "GSE42872"

    eSet <- getGEO(gse,

                   destdir = '.',(下载到当前目录)

                   getGPL = F)(不要注释文件)

    #(1)提取表达矩阵exp

    exp <- exprs(eSet[[1]])

    exp[1:4,1:4] (这里主要是为了看数据,是不是log后的,可以range看范围)

    #exp = log2(exp+1)

    #(2)提取临床信息

    pd <- pData(eSet[[1]])

    #(3)调整pd的行名顺序与exp列名完全一致(这步很重要,如果落下了后面的分析全错)

    p = identical(rownames(pd),colnames(exp));p

    if(!p) exp =exp[,match(rownames(pd),colnames(exp))]

    #(4)提取芯片平台编号

    gpl <- eSet[[1]]@annotation

    save(gse,pd,exp,gpl,file ="step1output.Rdata")

    相关文章

      网友评论

          本文标题:2022-10-01

          本文链接:https://www.haomeiwen.com/subject/iaqdartx.html