美文网首页注释和富集
Eggnog-mapper(2.1.7)使用记录

Eggnog-mapper(2.1.7)使用记录

作者: iBioinformatics | 来源:发表于2023-04-01 09:32 被阅读0次

    官方说明:
    https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2.1.5-to-v2.1.8#v218
    更多说明:
    http://www.chenlianfu.com/?p=2804
    https://developer.aliyun.com/article/675869
    https://www.jianshu.com/p/0eb67d83b603
    https://cloud.tencent.com/developer/article/1688675
    数据库说明:
    https://www.jianshu.com/p/e5f617b7c9e1
    https://www.cnblogs.com/jessepeng/p/12753721.html

    一、EggNOG数据库简介

    • EggNOG数据库全称是:直系同源蛋白分组比对(evolutionary genealogy of genes: Non-supervised Orthologous Groups)数据库,由EMBL创建维护,是对NCBI的COG数据库进行拓展,提供不同分类水平蛋白的直系同源分组(Orthologous Groups,OG),包括真核、原核及病毒的数据信息。它扩展了COG数据库的分类方法,采用无监督聚类算法在全基因组范围内推导基因功能,更适用于谱系特征基因的分析。
    • 最新的数据库为EggNOG5.0
    • eggNOG 5.0的完整下载数据地址:http://eggnog5.embl.de/download/eggnog_5.0/

    (一)主页面介绍

    • image

    1、e5.proteomes.faa为所有的蛋白组序列
    2、e5.viruses.faa为所有的病毒蛋白序列
    3、e5.taxid_info.tsv为Taxid对应的物种名称以及完整的谱系信息
    4、e5.og_annotations.tsv为所有的NOG信息(第一列为Taxid,第二列为NOG groups,第三列为COG归属,第四列为Function)

    (二)物种注释信息

    1、TaxID版本

    http://eggnog5.embl.de/download/eggnog_5.0/per_tax_level/

    • image

    2、物种名版本

    http://eggnog5.embl.de/#/app/downloads

    • image

    (三)emapperdb-5.0.2数据库

    网页位置 http://eggnog5.embl.de/download/emapperdb-5.0.2/

    • 当download_eggnog_data.py无法下载时可以选择网页下载
    • image

    二、NOG、KOG和COG数据库

    • NOG、KOG、COG,三者都是同源分类数据库,即都是OG(Orthologous Groups)。
      1、COG:Clusters of Orthologous Groups of proteins,即同源蛋白簇,是NCBI的一个数据库。根据生物完整基因组的编码蛋白系统进化关系分类构建而成,每一簇COG由直系同源序列构成,从而可以推测该序列的功能,按功能共可以分为二十六类。
      2、KOG:EuKaryotic Orthologous Groups。广义上COG分为真核和原核生物两类,原核的一般称为COG数据库,真核的一般称为KOG数据库。
      3、NOG:Non-supervised Orthologous Groups,注意是非监督,因COG未及时更新,EMBL EggNOG对COG进行了完善,极大拓展了基因组信息,主要是基于HMM分析提供更细致的OG分析。

    三、EggNOG-mapper的使用

     ##安装eggnog-mapper##
    conda create -n eggnog
    source activate eggnog
    conda install -c bioconda eggnog-mapper
    
     ##下载数据库##
    download_eggnog_data.py --data_dir ./eggnog5.0.0
    #不添加--data_dir选项,会将文件下载到eggnog-mapper 目录中的data目录
    #在最新版本中,因为只使用了 Diamond ,只有一个数据库。因此,参数euk,bact,arch,viruses数据库都无法被识别无法识别,因为没有被使用。
    #下载的数据中应包括eggnog.db.gz(功能注释数据库,用于根据比对结果进行功能注释)、eggnog_proteins.dmnd.gz(所有蛋白序列的DIMOND数据库,用于DIMOND快速序列比对)、eggnog.taxa.tar.gz
    #-P:下载 PFAM 数据库所必需的。
    #-M:下载 MMseqs2 数据库所必需的。整个 MMseqs2 数据库包括不属于任何 eggNOG Orthologous Group (OG) 的 eggNOG 蛋白质,而 Diamond 数据库仅包括属于 OG 的蛋白质。
    
    ##使用create_dbs.py仅创建细菌子数据库##
    create_dbs.py -m diamond --dbname bacteria --taxa Bacteria
    
    ##wget下载##
    wget http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog_proteins.dmnd.gz
    wget http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog.db.gz
    #用脚本下不了,太卡了,直接网页下载
    
    ##进行比对注释##
    python ~/eggnog/bin/emapper.py \
    -m diamond -i virus.fasta --itype CDS --translate --cpu 20 \
    --data_dir  /eggnog5.0.0/ \
    --dmnd_db /eggnog5.0.0/eggnog_proteins.dmnd \
    --output_dir /outdir -o virus
    #比对注释
    #-o:设置输出文件前缀
    #--output_dir:设置输出文件夹
    #-m:设置比对算法,(默认值:diamond){diamond,mmseqs,hmmer,no_search,cache}
    #-i:输入查询序列(蛋白质)的FASTA文件
    #--itype:输入(-i)文件中的数据类型。(默认值:proteins){CDS,proteins,genome,metagenome}
    #--translate:当--itype输入CDS,在搜索之前将CDS翻译成蛋白质。当--itype genome/metagenome和--genepred搜索时,将blastx命中的预测CDS翻译成蛋白质。(默认值:False)
    #--data_dir:eggnog mapper数据库的路径。默认情况下,“data/”
    #--dmnd_db:当使用DIAMOND算法时,设置DIAMOND数据库路径
    #--sensmode:Diamond的灵敏度模式。emapper的默认值是sensitive与diamond的默认值不同。 {default,fast,mid-sensitive,sensitive,more-sensitive,very-sensitive,ultra-sensitive}
    #--no_annot:Skip functional annotation, reporting only hits.(default: False)
    
    

    四、结果解读:

    eggnog-mapper会生成三个文件:

    • .hits: 记录每个用于query序列对应的所有的显著性的eggNOG Orthologous Groups(OG). 所有标记为"-"则表明该序列未找到可能的OG
    • .seed_orthologs: 记录每个用于搜索序列对的的最佳的OG,也就是.hits里选择得分最高的结果。之后会从eggNOG中提取更精细的直系同源关系(orthology relationships)
    • .annotations: 该文件提供了最终的注释结果。大部分需要的内容都可以通过写脚本从从提取,一共有13列
      .annotations每一列对应的记录如下:
      1、query_name: 检索的基因名或者其他ID
      2、sedd_eggNOG_ortholog: eggNOG中最佳的蛋白匹配
      3、seed_orholog_evalue: 最佳匹配的e-value
      4、seed_ortolog_evalu: 最佳匹配的bit-score
      5、predicted_gene_name: 预测的基因名,特别指的是类似AP2有一定含义的基因名,而不是AT2G17950这类编号
      6、GO_term: 推测的GO的词条, 未必最新
      7、KEGG_KO: 推测的KEGG KO词条, 未必最新
      8、BiGG_Reactions: BiGG代谢反应的预测结果
      9、Annotation_tax_scope: 对该序列在分类范围的注释
      10、Matching_OGs: 匹配的eggNOG Orthologous Groups
      11、best_OG|evalue|score: 最佳匹配的OG(HMM模式才有)
      12、COG functional categories: 从最佳匹配的OG中推测出的COG功能分类
      13、eggNOG_HMM_model_annotation: 从最佳匹配的OG中推测出eggNOG功能描述

    转自:https://www.jianshu.com/p/c557ad124b11

    相关文章

      网友评论

        本文标题:Eggnog-mapper(2.1.7)使用记录

        本文链接:https://www.haomeiwen.com/subject/qpkhddtx.html