repeat注释---EDTA

作者: jjjscuedu | 来源:发表于2021-12-01 08:10 被阅读0次

以前做基因组的repeat注释的时候，我一般都是采用repeatmasker/model的，在注释大点的基因组，尤其是烟草的时候，总觉得速度让人捉急。最近，做新的基因组注释相关的项目的时候，发现了另一个好用的工具：EDTA。一句话：盘它，以后注释repeat用EDTA就可以了。

EDTA, 全称是 Extensive de-novo TE Annotator。（This package is developed for automated whole-genome de-novo TE annotation and benchmarking the annotation performance of TE libraries。）从它的描述中我们也可以看出它是一个综合性的流程工具，它整合了目前LTR预测工具结果，TIR预测工具结果，MITE预测工具结果，Helitrons预测工具结果, 从而构建出一高可信，非冗余的TE数据库，用做基因组的注释。所以说，不用想以前注释repeat，需要几个工具综合。流程图如下图所示：

===参考资料===

Ou, S., Su, W., Liao, Y., Chougule, K., Agda, J.R.A., Hellinga, A.J., Lugo, C.S.B., Elliott, T.A., Ware, D., Peterson, T., et al. (2019). Benchmarking transposable element annotation methods for creation of a streamlined, comprehensive pipeline. Genome Biology 20, 275.

https://github.com/oushujun/EDTA

===安装====

还是要感慨一下conda真是拯救了我这种安软件总是出问题的人，可以尽情的配置不一样的环境，尤其是不同工具对于不同perl或者python版本的依赖问题。

git clone https://github.com/oushujun/EDTA.git

cd EDTA

conda env create -f EDTA.yml

//相当于建立了一个EDTA的环境，里面进行了相关要求的配置。

source activate EDTA 或者 conda activate EDTA //进入EDTA的环境

perl EDTA.pl //就可以用了

这里的参数比较简单,

-genome: 输入的基因组序列

-species: 物种名，Rice, Maize和others三个可选

-step: 运行步骤,all|filter|final|anno, 根据具体情况选择

-t: 线程数，默认是4

此外还有几个参数可以关注下

-cds: 提供已有的CDS序列（不能包括内含子和UTR），用于过滤

--exclude: bed文件提供的区域不做TE注释，可以提供基因注释bed

-sensitive: 是否用RepeatModeler分析剩下的TE，默认是0，也就是不要。RepeatModeler运行时间比较久，量力而行。

-anno: 是否在构建TE文库后进行全基因组预测，默认是0.

===测试例子=====

先用安装包里面知道的test数据试一下：

cd test/

perl ../EDTA.pl --genome genome.fa --cds genome.cds.fa --curatedlib ../database/rice6.9.5.liban --exclude genome.exclude.bed --overwrite 1 --sensitive 1 --anno 1 --evaluate 1 --threads 10

运行结束之后，产生的文件：

其中TEanno.sum是repeat注释的总结文件：

其中TEanno.gff3是repeat注释的gff文件：

===测试真实数据===

测试一下arabidopsis的Chr1染色体：

准备Chr1.fa和Chr1.cds.fa文件

perl ../EDTA.pl --genome Chr1.fa --cds Chr1.cds.fa --sensitive 1 --anno 1 --evaluate 1 --threads 20 --force 1

差不多1~2个小时就可以跑完。

本文使用文章同步助手同步

网友评论

本文标题：repeat注释---EDTA

本文链接：https://www.haomeiwen.com/subject/vwzjxrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

repeat注释---EDTA

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读