美文网首页转录组学生物数据库orthofinder
【转录组08】功能注释&功能富集

【转录组08】功能注释&功能富集

作者: 呆呱呱 | 来源:发表于2020-12-15 00:00 被阅读0次

    上一步差异表达分析拿到了表达谱【比如当用药物处理之后,实验组中哪些基因的表达发生了变化】


    所谓基因的功能其实是基因产物的功能

    GO数据库 Gene Ontology

    允许在各种水平查询基因产物的特性
    解决生物学定义又混乱的现象,是的各种数据库中基因产物功能描述相一致,使得在不同生物数据库中的查询具有极高的一致性

    image.png
    w/1240)
    • 一个基因多种功能

    栗子:TP53


    image.png
    • 生物学功能的多种描述

    image.png image.png

    Ontology 的结构

    image.png image.png

    GO term 之间的关系

    • is a
    image.png
    • part of
    image.png
    • is a +part of
    image.png
    • 调节控制关系以及推导
    image.png

    KEGG数据库(京都基因和基因组百科全书)

    image.png image.png image.png
    • 符号的含义 image.png

    • ID意思


      image.png

    功能注释实操

    • workflow

    image.png

    例子1:查看单个疾病风险基因注释到哪些通路

    • KEGG

    1. 神经胶质瘤(Glioma)风险基因(NCBI-GeneID :1956),该基因编码表皮生长因子受体(EGFR)
    2. 进入KEGG搜索界面http://www.genome.jp/kegg/tool/map_pathway2.html
    image.png image.png 从KEGG官网点击pathway进入
    1. 选择Organism-specific为:hsa
    2. 选择Optional use of outside类型为:NCBI-GeneID
    3. 输入EGFR基因(如格式:1956 red)


      image.png
    从左到右的三列依次是:基因名,通路名字,物种名称 image.png 绿色的方框表示人类所特有的基因
    image.png
    • GO

    1. 神经胶质瘤(Glioma)风险基因(NCBI-GeneID :1956),该基因编码表皮生长因子受体(EGFR)


      三个板块
      image.png
    1. 进入GO界面http://www.geneontology.org/
    2. 输入EGFR基因(格式: EGFR )
    3. 选择Gene Product
    4. 点击Go


      IEA是经过实验验证
      IDA类型是计算机预测的

    例子2:查看多个疾病风险基因注释到哪些通路(适用于复杂疾病)

    1. 从通过差异表达分析获得airway数据集trt和untrt间差异表达基因集合:共640个基因


      image.png
    2. 进入KEGG搜索界面http://www.genome.jp/kegg/tool/map_pathway2.html

    3. 选择Organism-specific为:hsa

    4. 选择Optional use of outside类型为:NCBI-GeneID

    5. 输入差异表达基因,格式:19 red

    6. 368 red

    7. 点击Exec

    功能富集分析

    原因


    image.png
    统计学方法 image.png

    结果可视化

    
    
    
    #### 第一步,从org.Hs.eg.db提取ENSG的ID 和GI号对应关系
    keytypes(org.Hs.eg.db)
    
    # bitr in clusterProfiler
    allID <- bitr(gene_all, fromType = "ENSEMBL", toType = c( "ENTREZID" ), OrgDb = org.Hs.eg.db )
    degID <- bitr(DEG, fromType = "ENSEMBL", toType = c( "ENTREZID" ), OrgDb = org.Hs.eg.db )
    head(degID)
    
    
    # KEGG analysis----
    enrich <- enrichKEGG(gene =degID[,2],organism='hsa',universe=allID[,2],pvalueCutoff=1,qvalueCutoff=1)
    ##enrichKEGG只有一句话
    ##背景基因值的选择会影响最后的P值
    GeneRatio <- as.numeric(lapply(strsplit(enrich$GeneRatio,split="/"),function(x) as.numeric(x[1])/as.numeric(x[2])))
    BgRatio <- as.numeric(lapply(strsplit(enrich$BgRatio,split="/"),function(x) as.numeric(x[1])/as.numeric(x[2])  ))
    enrich_factor <- GeneRatio/BgRatio
    out <- data.frame(enrich$ID,enrich$Description,enrich$GeneRatio,enrich$BgRatio,round(enrich_factor,2),enrich$pvalue,enrich$qvalue,enrich$geneID)
    colnames(out) <- c("ID","Description","GeneRatio","BgRatio","enrich_factor","pvalue","qvalue","geneID")
    write.table(out,"../Analysis/deg_analysis/trut_VS_untrt_enrich_KEGG.xls",row.names = F,sep="\t",quote = F)
    
    out_sig0.05 <- out[out$qvalue<0.05,]  ##挑选过程
    
    # barplot
    bar <- barplot(enrich,showCategory=10,title="KEGG Pathway",colorBy="p.adjust")
    bar
    
    
    image.png

    相关文章

      网友评论

        本文标题:【转录组08】功能注释&功能富集

        本文链接:https://www.haomeiwen.com/subject/pkmbgktx.html