材料:一个只有gene name的表格
需求:KEGG富集分析
背景
功能富集分析:按照功能分类,将功能相近的基因/蛋白分到一起,并关联其生物学表型。
Gene Ontology (GO)一个数据库,用以限定描述多种物种的基因/蛋白功能。注释分三类,Molecular Function(MF),Biological Process(BP),Cellular Components(CC)。
KEGG也是个数据库,其中最有名的就是他的pathway数据库。
其代码实现用Y叔的clusterprofiler及其简单。(包的安装和调用不写了)
1.转换ID,因为只有gene name,属于“SYMBOL”所以先要将其转化为"ENSEMBL",ENSG00XXXX格式
name_ID = bitr(genename,fromType = 'SYMBOL',toType = 'ENSEMBL',OrgDb =
'org.Hs.eg.db')
但是还不够,后面enrichkegg,只支持'ENTREZID“格式的ID,比如’1244‘
所以再用一次bitr函数
name_ID_1 = bitr(genelist,fromType = 'ENSEMBL',toType = 'ENTREZID',OrgDb = 'org.Hs.eg.db')
2.kegg
KEGG <- enrichKEGG(gene = genelist,organism = 'hsa',keyType = 'kegg',pvalueCutoff = 0.05,pAdjustMethod = 'BH')
再写出文件
write.csv(summary(KEGG),'summary_KEGG.csv',row.names = F)
OK,下一篇记录结果分析和可视化。
补充:GO富集的代码
ego = enrichGO(OrgDb="org.Hs.eg.db", gene = genelist,pvalueCutoff = 0.01,readable=TRUE)
write.csv(ego,"G-enrich_pri.csv",row.names =F)
网友评论