美文网首页
科研干货 | EMBLmyGFF3——GFF3和EMBL格式转换

科研干货 | EMBLmyGFF3——GFF3和EMBL格式转换

作者: 贝瑞科服 | 来源:发表于2022-03-04 11:27 被阅读0次

GFF3是一种常用的基因组注释信息的文件存储格式,具有格式标准,拓展性强的特点(具体信息请参见http://gmod.org/wiki/GFF3)。但是在将基因组注释信息提交到各个基因组数据库时却需要将GFF3文件转换为各个数据库可以接受的格式,如NCBI数据库需要将GFF3转换为.sqn 格式文件才能提交给 GenBank;还有国际核苷酸数据库合作数据库(the International Nucleotide Sequence Database Collaboration (INSDC) databases) 需要将GFF3格式转换为EMBL 格式才能提交。

由于GFF3格式和EMBL格式的差异性,GFF3格式转换为EMBL格式存在一些困难。虽然一些工具被开发出来解决这个问题,但是每个工具都有一些使用局限性,比如GFF3toEMBL软件只能处理注释工具 Prokka软件产生的 GFF3文件;Artemis 软件有一个图形界面,但不能自动化处理等等。为了解决上述问题,小贝壳er为大家推荐一款格式转化工具——EMBLmyGFF3,能够轻松解决GFF3和EMBL格式转换的问题。

一、EMBLmyGFF3原理介绍

标准的GFF3文件每行有9列信息,也就是每个序列有9个属性信息。GFF3文件转换为EMBL文件的难点是将GFF3文件的第三列的feature和第九列的attribute信息正确映射至EMBL格式文件中。EMBLmyGFF3是由瑞典科学家Norling 等于2018年推出的,EMBLmyGFF3首次使用了json文件来存放GFF3和EMBL文件之间的映射关系,特征和属性对照表分别存放在translation_gf_ feature_to_embl_feature.json和translation_ gf_attribute_to_embl_qualifer.json文件中,示例如下:

下图是将GFF3的five_prime_UTR 、three_prime_UTR映射到EMBL文件中。

# translation_gf_feature_to_embl_feature.json

{

"five_prime_UTR": {

  "target": "5'UTR"

},

"three_prime_UTR": {

  "target": "3'UTR"

}

}

下图是将GFF3的ID、Name映射到EMBL文件中。

# translation_gf_attribute_to_embl_qualifer.json

{

"ID": {

  "source description": "Indicates the ID of the feature. …",

  "target": "note",

  "prefix": "ID:",

  "dev comment": ""

},

"Name": {

  "source description": "Display name for the feature. …",

  "target": "standard_name",

  "dev comment": ""

}

}

二、软件下载与安装

该软件可以在github中获得代码信息,网址是:https://github.com/NBISweden/EMBLmyGFF3,可以将EMBLmyGFF3安装在Mac OS X / LINUX系统中,安装方法如下:

(1)Conda安装方法

conda install -c bioconda emblmygff3

(2) pip安装方法

pip install --user git+https://github.com/NBISweden/ EMBLmyGFF3.git

(3)源代码安装方法

git clone https://github.com/NBISweden/EMBLmy GFF3.git

cd EMBLmyGFF3/

python setup.py install --user

三、EMBLmyGFF3示例应用

EMBLmyGFF3的输入文件有两个,一个是基因组序列信息,一个是基因组注释信息,为GFF3格式。使用示例如下:

EMBLmyGFF3 maker.gff3 maker.fa

    --data_class STD

    --topology linear

    --molecule_type "genomic DNA"

    --transl_table 1

    --species 'Drosophila melanogaster'

    --taxonomy INV

    --locus_tag LOCUSTAG

    --project_id PRJXXXXXXX

    --rg MYGROUP

    --author 'author for the reference'

    --rt 'reference title'

    --rl 'Some journal'

-o result.embl

软件参数说明如下:

输出的EMBL格式与GenBank数据库格式含义说明如下:

四、EMBLmyGFF3的测评与其他说明

EMBLmyGFF3的运行时间与基因组大小以及注释文件的复杂程度相关,统计结果显示,基因组越大,注释文件越复杂需要消耗的资源也就越多。相关测评结果如下:

EMBLmyGFF3工具为生物信息工作者提供了一个GFF3文件转换为EMBL格式的好用的工具,但是该软件也存在一些局限性,比如它要求GFF3文件的格式的准确性,同时在一些大基因组的注释文件的转换上花费的时间较长等等。期待后面有更多好用的工具被开发出来,简化科研工作者的工作。

参考文献

1. Norling M, Jareborg N, Dainat J. EMBLmyGFF3: a Converter Facilitating Genome Annotation Submission to European Nucleotide Archive. BMC Res Notes. 2018,11(1):584.

相关文章

网友评论

      本文标题:科研干货 | EMBLmyGFF3——GFF3和EMBL格式转换

      本文链接:https://www.haomeiwen.com/subject/dpoprrtx.html