1.项目总览及Github介绍
介绍整个项目
简介Github,注册,下载其中代码
- R语言用文件夹+project方式组织,定位所有数据和代码
2.通用文献阅读及规律
- identification of the interaction network of hub genes for melanoma treated with vemurafenib based on microarray data
文献导读,注意文章中找到差异性的方法
例子中是p值<0.01,|logFC|≥2 - 差异基因要通过阈值控制,~200多差异比较正常
-至少看20篇相关文章,提炼脉络,选择GSE- 表达矩阵-差异分析-5大数据库的注释-PPI等网络
了解GEO数据库(生新技能树公众号,解读GEO)
GSE号-修改URL即可到数据库
refseq_id, GEOquery
芯片基础知识(生信技能树论坛)
HG-U133_Plus_2(经典芯片)
3. 数据下载的3种方式
- ①下载rawdata(不推荐)
- ②下载表达矩阵(matrix)
- ③ R语言直接读取GSE号 (GEOquery)
getGEO("GSE42549", GSEMatrix = TRUE, AnnotGPL = FALSE, getGPL= FALSE)
- 不同芯片用不同的R包
4.ID转换技巧大全
downGSE
- geneID,探针和基因不是一一对应的,且基因本身就是多种多样(entrez ID和symbol是最重要的)
- ID转换,library(hgu95av2.db )
不同平台对应不同R包,可谷歌 - ID转换实操,
5. 了解你的表达矩阵
实操,跑代码,了解PCA,hclust图等
6. 差异分析
limma对芯片数据做差异分析
需要
- 表达矩阵
- 分组矩阵
- 差异比较矩阵
实现步骤 - lmFit
- eBayes
- topTable
高清代码的input
7. 火山图、热图制作及美化
火山图、超几何分布
plot(nrDEGP.Value))
bitr(gene,fromType = "ENTREZID", toType = c("ENSEMBL","SYMBOL"), OrgDb = org.Hs.eg,db)
8. KEGG-GO等数据库的注释及GSEA分析
实操
9. 收尾的几点建议
多看paper,多练习
10. 批量生存分析
Github,jimmy账户:jmzeng1314
好好学R语言
网友评论