美文网首页注释和富集RNA-seq
EggNOG5本地化及注释

EggNOG5本地化及注释

作者: 谁冒充我小叮当 | 来源:发表于2022-06-08 17:06 被阅读0次

EggNOG5

参考:

https://www.jianshu.com/p/e5f617b7c9e1
https://www.cnblogs.com/jessepeng/p/12753721.html
http://www.chenlianfu.com/?p=2804
https://developer.aliyun.com/article/675869
https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2.1.5-to-v2.1.7

(一)EggNOG简介

eggNOG数据库全称是:直系同源蛋白分组比对(evolutionary genealogy of genes: Non-supervised Orthologous Groups)数据库,由EMBL创建维护,是对NCBI的COG数据库进行拓展,提供不同分类水平蛋白的直系同源分组(Orthologous Groups,OG),包括真核、原核及病毒的数据信息。它扩展了COG数据库的分类方法,采用无监督聚类算法在全基因组范围内推导基因功能,更适用于谱系特征基因的分析。最新的数据库为EggNOG5.0。

(二)NOG、KOG、COG

NOG、KOG、COG,三者都是同源分类数据库,即都是OG(Orthologous Groups)。

  • COG:Clusters of Orthologous Groups of proteins,即同源蛋白簇,是NCBI的一个数据库。根据生物完整基因组的编码蛋白系统进化关系分类构建而成,每一簇COG由直系同源序列构成,从而可以推测该序列的功能,按功能共可以分为二十六类。
  • KOG:EuKaryotic Orthologous Groups。广义上COG分为真核和原核生物两类,原核的一般称为COG数据库,真核的一般称为KOG数据库。
  • NOG:Non-supervised Orthologous Groups,注意是非监督,因COG未及时更新,EMBL EggNOG对COG进行了完善,极大拓展了基因组信息,主要是基于HMM分析提供更细致的OG分析。

(三)eggNOG mapper

conda create -n eggnog
source activate eggnog
conda install -c bioconda eggnog-mapper
 #安装eggnog-mapper

download_eggnog_data.py --data_dir ./eggnog5.0.0
#下载数据库
#不添加--data_dir选项,会将文件下载到eggnog-mapper 目录中的data目录
#在最新版本中,因为只使用了 Diamond ,只有一个数据库。因此,参数euk,bact,arch,viruses数据库都无法被识别无法识别,因为没有被使用。
#下载的数据中应包括eggnog.db.gz(功能注释数据库,用于根据比对结果进行功能注释)、eggnog_proteins.dmnd.gz(所有蛋白序列的DIMOND数据库,用于DIMOND快速序列比对)、eggnog.taxa.tar.gz
#-P:下载 PFAM 数据库所必需的。
#-M:下载 MMseqs2 数据库所必需的。整个 MMseqs2 数据库包括不属于任何 eggNOG Orthologous Group (OG) 的 eggNOG 蛋白质,而 Diamond 数据库仅包括属于 OG 的蛋白质。
#使用create_dbs.py仅创建细菌子数据库:create_dbs.py -m diamond --dbname bacteria --taxa Bacteria
wget http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog_proteins.dmnd.gz
wget http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog.db.gz
#用脚本下不了,太卡了,直接网页下载

python ~/eggnog/bin/emapper.py \
-m diamond -i virus.fasta --itype CDS --translate --cpu 20 \
--data_dir  /eggnog5.0.0/ \
--dmnd_db /eggnog5.0.0/eggnog_proteins.dmnd \
--output_dir /outdir -o virus
#比对注释
#-o:设置输出文件前缀
#--output_dir:设置输出文件夹
#-m:设置比对算法,(默认值:diamond){diamond,mmseqs,hmmer,no_search,cache}
#-i:输入查询序列(蛋白质)的FASTA文件
#--itype:输入(-i)文件中的数据类型。(默认值:proteins){CDS,proteins,genome,metagenome}
#--translate:当--itype输入CDS,在搜索之前将CDS翻译成蛋白质。当--itype genome/metagenome和--genepred搜索时,将blastx命中的预测CDS翻译成蛋白质。(默认值:False)
#--data_dir:eggnog mapper数据库的路径。默认情况下,“data/”
#--dmnd_db:当使用DIAMOND算法时,设置DIAMOND数据库路径
#--sensmode:Diamond的灵敏度模式。emapper的默认值是sensitive与diamond的默认值不同。 {default,fast,mid-sensitive,sensitive,more-sensitive,very-sensitive,ultra-sensitive}
#--no_annot:Skip functional annotation, reporting only hits.(default: False)
更具体的参数可查看emapper.py -h或http://www.chenlianfu.com/?p=2804
结果解读:
eggnog-mapper会生成三个文件:
.hits: 记录每个用于query序列对应的所有的显著性的eggNOG Orthologous Groups(OG). 所有标记为"-"则表明该序列未找到可能的OG
.seed_orthologs: 记录每个用于搜索序列对的的最佳的OG,也就是.hits里选择得分最高的结果。之后会从eggNOG中提取更精细的直系同源关系(orthology relationships)
.annotations: 该文件提供了最终的注释结果。大部分需要的内容都可以通过写脚本从从提取,一共有13列
#.annotations每一列对应的记录如下:
#1.query_name: 检索的基因名或者其他ID
#2.sedd_eggNOG_ortholog: eggNOG中最佳的蛋白匹配
#3.seed_orholog_evalue: 最佳匹配的e-value
#4.seed_ortolog_evalu: 最佳匹配的bit-score
#5.predicted_gene_name: 预测的基因名,特别指的是类似AP2有一定含义的基因名,而不是AT2G17950这类编号
#6.GO_term: 推测的GO的词条, 未必最新
#7.KEGG_KO: 推测的KEGG KO词条, 未必最新
#8.BiGG_Reactions: BiGG代谢反应的预测结果
#9.Annotation_tax_scope: 对该序列在分类范围的注释
#10.Matching_OGs: 匹配的eggNOG Orthologous Groups
#11.best_OG|evalue|score: 最佳匹配的OG(HMM模式才有)
#12.COG functional categories: 从最佳匹配的OG中推测出的COG功能分类
#13.eggNOG_HMM_model_annotation: 从最佳匹配的OG中推测出eggNOG功能描述

相关文章

  • EggNOG5本地化及注释

    EggNOG5 参考: https://www.jianshu.com/p/e5f617b7c9e1[https:...

  • 序列比对

    1.Blast+本地化及使用方法:http://bioinformation.cn/?cat=5 2.如何本地化进...

  • iOS常用的宏

    语言 ## ****本地化 ## ****打印 ## ****设备及系统型号 ## ****获取系统版本 ## *...

  • Java注释及文档注释

    Java注释有三种方式 代码是写给人看的,写注释是为了能让人快速看懂代码,方便程序员间的交流。代码要有规范,要有良...

  • Kotlin语言基础(二)

    3.6 代码注释 正如 Java 和 JavaScript,Kotlin 支持行注释及块注释。 与 Java 不同...

  • Python-01-注释

    目标: 一.注释的作用 二.注释的分类及语法 1.单行注释:只能注释一行内容,语法如下: 注释内容 2.多行注释:...

  • lualib.h

    先看源码及简要注释

  • 成语及注释

    1. 欢声雷动:欢笑的声音象雷一样响着。形容热烈欢呼的动人场面。 2. 欣喜若狂:欣喜:快乐; 若:好象; 狂:失...

  • iTunes connect修改主要语言(2017.10)

    本地化 本地化有app内本地化,和itunesConnect里本地化。app内本地化是用户使用 app时看到的语言...

  • iOS国际化

    本地化需求 1,字符串本地化2,app名称本地化3,storyboard中的控件的title本地化 如何实现本地化...

网友评论

    本文标题:EggNOG5本地化及注释

    本文链接:https://www.haomeiwen.com/subject/joiumrtx.html