美文网首页生信在线工具GO注释基因组变异分析
interpro 注释结果简单分析及可视化

interpro 注释结果简单分析及可视化

作者: 超人立志做国王 | 来源:发表于2019-01-08 15:16 被阅读575次

    Interpro数据库

    Interpro是集成了蛋白质家族、结构域和功能位点的非冗余蛋白质特征序列数据库, Interpro数据库成员包括Coils 、Gene3D、Pfam、PRINTS、ProSitePatterns、 ProSiteProfiles、 SMART、 SUPERFAMILY、 TIGRFAM、 ProDom、 PIR 数据库。采用 interproscan 软件可以对新蛋白质序列通过序列比对或者 HMM 算法等搜索与 interpro 蛋白质特征序列匹配预测蛋白质各种结构功能域、信号肽、跨膜特征、蛋白质螺旋结构等,interproscan 结果文件见下图:

    Interproscan注释结果

    interpro 结构功能域或者功能位点计数分析

    将注释结果(文件链接http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.interpro)导入到R中进行结构功能域或者功能位点计数分析,代码如下

    ```

    #导入R包

    library(tidyverse)

    library(ggpubr)

    # 读取结果文件并去掉有缺失值的行

    interpro <- read_tsv("all.interpro",na = "N/A") %>% na.omit()

    # 统计蛋白质家族、结构域和功能位点的比例等

    ipr <- interpro %>% select(model,ipr_acc,ipr_desc) %>% group_by(model, ipr_acc) %>%

      summarise(ipr_desc = ipr_desc[[1]]) %>% group_by(ipr_acc, ipr_desc) %>% summarise(Count=n())%>%

      arrange(desc(Count)) %>% ungroup() %>%mutate(Percent = Count/sum(Count))

    # 绘制前20的结构功能域或者功能位点

    p <- ggplot(ipr) +

      geom_bar(aes(x = ipr_desc, y = Percent, fill = ipr_desc), stat = "identity") +

      scale_y_continuous(labels = scales::percent, limits = c(0, 0.08),name = "Percent of Domain") +

      scale_x_discrete(limits = ipr$ipr_desc[1:20], name = NULL) + scale_fill_discrete(guide = FALSE)+

      theme_pubr() +

      theme(axis.text.x=element_text(angle=60,vjust=1, hjust=1))

    #展示图片

    p

    #保存图片

    ggsave("interpro.pdf", p, width = 16, height = 10)

    ggsave("interpro.png", p, width = 16, height = 10)

    ```

    ipr数据如下:

    结构功能域或者功能位点计数

    可视化结果:

    interproscan 结构功能域或者功能位点(top20)计数柱状图

    相关文章

      网友评论

        本文标题:interpro 注释结果简单分析及可视化

        本文链接:https://www.haomeiwen.com/subject/uuzvrqtx.html