GFF3是一种常用的基因组注释信息的文件存储格式,具有格式标准,拓展性强的特点(具体信息请参见http://gmod.org/wiki/GFF3)。但是在将基因组注释信息提交到各个基因组数据库时却需要将GFF3文件转换为各个数据库可以接受的格式,如NCBI数据库需要将GFF3转换为.sqn 格式文件才能提交给 GenBank;还有国际核苷酸数据库合作数据库(the International Nucleotide Sequence Database Collaboration (INSDC) databases) 需要将GFF3格式转换为EMBL 格式才能提交。
由于GFF3格式和EMBL格式的差异性,GFF3格式转换为EMBL格式存在一些困难。虽然一些工具被开发出来解决这个问题,但是每个工具都有一些使用局限性,比如GFF3toEMBL软件只能处理注释工具 Prokka软件产生的 GFF3文件;Artemis 软件有一个图形界面,但不能自动化处理等等。为了解决上述问题,小贝壳er为大家推荐一款格式转化工具——EMBLmyGFF3,能够轻松解决GFF3和EMBL格式转换的问题。
一、EMBLmyGFF3原理介绍
标准的GFF3文件每行有9列信息,也就是每个序列有9个属性信息。GFF3文件转换为EMBL文件的难点是将GFF3文件的第三列的feature和第九列的attribute信息正确映射至EMBL格式文件中。EMBLmyGFF3是由瑞典科学家Norling 等于2018年推出的,EMBLmyGFF3首次使用了json文件来存放GFF3和EMBL文件之间的映射关系,特征和属性对照表分别存放在translation_gf_ feature_to_embl_feature.json和translation_ gf_attribute_to_embl_qualifer.json文件中,示例如下:
下图是将GFF3的five_prime_UTR 、three_prime_UTR映射到EMBL文件中。
# translation_gf_feature_to_embl_feature.json
{
"five_prime_UTR": {
"target": "5'UTR"
},
"three_prime_UTR": {
"target": "3'UTR"
}
}
下图是将GFF3的ID、Name映射到EMBL文件中。
# translation_gf_attribute_to_embl_qualifer.json
{
"ID": {
"source description": "Indicates the ID of the feature. …",
"target": "note",
"prefix": "ID:",
"dev comment": ""
},
"Name": {
"source description": "Display name for the feature. …",
"target": "standard_name",
"dev comment": ""
}
}
二、软件下载与安装
该软件可以在github中获得代码信息,网址是:https://github.com/NBISweden/EMBLmyGFF3,可以将EMBLmyGFF3安装在Mac OS X / LINUX系统中,安装方法如下:
(1)Conda安装方法
conda install -c bioconda emblmygff3
(2) pip安装方法
pip install --user git+https://github.com/NBISweden/ EMBLmyGFF3.git
(3)源代码安装方法
git clone https://github.com/NBISweden/EMBLmy GFF3.git
cd EMBLmyGFF3/
python setup.py install --user
三、EMBLmyGFF3示例应用
EMBLmyGFF3的输入文件有两个,一个是基因组序列信息,一个是基因组注释信息,为GFF3格式。使用示例如下:
EMBLmyGFF3 maker.gff3 maker.fa
--data_class STD
--topology linear
--molecule_type "genomic DNA"
--transl_table 1
--species 'Drosophila melanogaster'
--taxonomy INV
--locus_tag LOCUSTAG
--project_id PRJXXXXXXX
--rg MYGROUP
--author 'author for the reference'
--rt 'reference title'
--rl 'Some journal'
-o result.embl
软件参数说明如下:

输出的EMBL格式与GenBank数据库格式含义说明如下:

四、EMBLmyGFF3的测评与其他说明
EMBLmyGFF3的运行时间与基因组大小以及注释文件的复杂程度相关,统计结果显示,基因组越大,注释文件越复杂需要消耗的资源也就越多。相关测评结果如下:

EMBLmyGFF3工具为生物信息工作者提供了一个GFF3文件转换为EMBL格式的好用的工具,但是该软件也存在一些局限性,比如它要求GFF3文件的格式的准确性,同时在一些大基因组的注释文件的转换上花费的时间较长等等。期待后面有更多好用的工具被开发出来,简化科研工作者的工作。
参考文献
1. Norling M, Jareborg N, Dainat J. EMBLmyGFF3: a Converter Facilitating Genome Annotation Submission to European Nucleotide Archive. BMC Res Notes. 2018,11(1):584.
网友评论