美文网首页鸡易呕
190102 【生信技能树】GEO数据挖掘

190102 【生信技能树】GEO数据挖掘

作者: 森尼啊 | 来源:发表于2019-01-02 20:43 被阅读0次

    1.项目总览及Github介绍

    介绍整个项目
    简介Github,注册,下载其中代码

    • R语言用文件夹+project方式组织,定位所有数据和代码

    2.通用文献阅读及规律

    • identification of the interaction network of hub genes for melanoma treated with vemurafenib based on microarray data
      文献导读,注意文章中找到差异性的方法
      例子中是p值<0.01,|logFC|≥2
    • 差异基因要通过阈值控制,~200多差异比较正常
      -至少看20篇相关文章,提炼脉络,选择GSE- 表达矩阵-差异分析-5大数据库的注释-PPI等网络

    了解GEO数据库(生新技能树公众号,解读GEO)

    GSE号-修改URL即可到数据库
    refseq_id, GEOquery
    芯片基础知识(生信技能树论坛)
    HG-U133_Plus_2(经典芯片)

    3. 数据下载的3种方式

    • ①下载rawdata(不推荐)
    • ②下载表达矩阵(matrix)
    • ③ R语言直接读取GSE号 (GEOquery)
      getGEO("GSE42549", GSEMatrix = TRUE, AnnotGPL = FALSE, getGPL= FALSE)
    • 不同芯片用不同的R包

    4.ID转换技巧大全

    downGSE

    • geneID,探针和基因不是一一对应的,且基因本身就是多种多样(entrez ID和symbol是最重要的)
    • ID转换,library(hgu95av2.db )
      不同平台对应不同R包,可谷歌
    • ID转换实操,

    5. 了解你的表达矩阵

    实操,跑代码,了解PCA,hclust图等

    6. 差异分析

    limma对芯片数据做差异分析
    需要

    • 表达矩阵
    • 分组矩阵
    • 差异比较矩阵
      实现步骤
    • lmFit
    • eBayes
    • topTable
      高清代码的input

    7. 火山图、热图制作及美化

    火山图、超几何分布
    plot(nrDEGlogFC, -log10(nrDEGP.Value))
    bitr(gene,fromType = "ENTREZID", toType = c("ENSEMBL","SYMBOL"), OrgDb = org.Hs.eg,db)

    8. KEGG-GO等数据库的注释及GSEA分析

    实操

    9. 收尾的几点建议

    多看paper,多练习

    10. 批量生存分析

    Github,jimmy账户:jmzeng1314
    好好学R语言

    相关文章

      网友评论

        本文标题:190102 【生信技能树】GEO数据挖掘

        本文链接:https://www.haomeiwen.com/subject/hdzzlqtx.html