GO和KEGG学习笔记1(含R代码)

作者: 聪明如你啊 | 来源:发表于2020-01-20 20:27 被阅读0次

    材料:一个只有gene name的表格

    需求:KEGG富集分析

    背景

    功能富集分析:按照功能分类,将功能相近的基因/蛋白分到一起,并关联其生物学表型。

    Gene Ontology (GO)一个数据库,用以限定描述多种物种的基因/蛋白功能。注释分三类,Molecular Function(MF),Biological Process(BP),Cellular Components(CC)。

    KEGG也是个数据库,其中最有名的就是他的pathway数据库。


    其代码实现用Y叔的clusterprofiler及其简单。(包的安装和调用不写了)

    1.转换ID,因为只有gene name,属于“SYMBOL”所以先要将其转化为"ENSEMBL",ENSG00XXXX格式

    name_ID = bitr(genename,fromType = 'SYMBOL',toType = 'ENSEMBL',OrgDb =

                    'org.Hs.eg.db')

    但是还不够,后面enrichkegg,只支持'ENTREZID“格式的ID,比如’1244‘

    所以再用一次bitr函数

    name_ID_1 = bitr(genelist,fromType = 'ENSEMBL',toType = 'ENTREZID',OrgDb = 'org.Hs.eg.db')

    2.kegg

    KEGG <- enrichKEGG(gene = genelist,organism = 'hsa',keyType = 'kegg',pvalueCutoff = 0.05,pAdjustMethod = 'BH')

    再写出文件

    write.csv(summary(KEGG),'summary_KEGG.csv',row.names = F)

               OK,下一篇记录结果分析和可视化。

    补充:GO富集的代码

    ego = enrichGO(OrgDb="org.Hs.eg.db", gene = genelist,pvalueCutoff = 0.01,readable=TRUE)

    write.csv(ego,"G-enrich_pri.csv",row.names =F)

    相关文章

      网友评论

        本文标题:GO和KEGG学习笔记1(含R代码)

        本文链接:https://www.haomeiwen.com/subject/ptwmmctx.html