美文网首页
repeat注释---EDTA

repeat注释---EDTA

作者: jjjscuedu | 来源:发表于2021-12-01 08:10 被阅读0次

    以前做基因组的repeat注释的时候,我一般都是采用repeatmasker/model的,在注释大点的基因组,尤其是烟草的时候,总觉得速度让人捉急。最近,做新的基因组注释相关的项目的时候,发现了另一个好用的工具:EDTA。一句话:盘它,以后注释repeat用EDTA就可以了。

    EDTA, 全称是 Extensive de-novo TE Annotator。(This package is developed for automated whole-genome de-novo TE annotation and benchmarking the annotation performance of TE libraries。)从它的描述中我们也可以看出它是一个综合性的流程工具,它整合了目前LTR预测工具结果,TIR预测工具结果,MITE预测工具结果,Helitrons预测工具结果, 从而构建出一高可信,非冗余的TE数据库,用做基因组的注释。所以说,不用想以前注释repeat,需要几个工具综合。流程图如下图所示:

    ===参考资料===

    Ou, S., Su, W., Liao, Y., Chougule, K., Agda, J.R.A., Hellinga, A.J., Lugo, C.S.B., Elliott, T.A., Ware, D., Peterson, T., et al. (2019). Benchmarking transposable element annotation methods for creation of a streamlined, comprehensive pipeline. Genome Biology 20, 275.

    https://github.com/oushujun/EDTA

    ===安装====

    还是要感慨一下conda真是拯救了我这种安软件总是出问题的人,可以尽情的配置不一样的环境,尤其是不同工具对于不同perl或者python版本的依赖问题。

    git clone https://github.com/oushujun/EDTA.git

    cd EDTA

    conda env create -f EDTA.yml

    //相当于建立了一个EDTA的环境,里面进行了相关要求的配置。

    source activate EDTA  或者 conda activate EDTA //进入EDTA的环境

    perl EDTA.pl   //就可以用了

    这里的参数比较简单,

     

    -genome: 输入的基因组序列

    -species: 物种名,Rice, Maize和others三个可选

    -step: 运行步骤,all|filter|final|anno, 根据具体情况选择

    -t: 线程数,默认是4

    此外还有几个参数可以关注下

     

    -cds: 提供已有的CDS序列(不能包括内含子和UTR),用于过滤

    --exclude: bed文件提供的区域不做TE注释,可以提供基因注释bed

    -sensitive: 是否用RepeatModeler分析剩下的TE,默认是0,也就是不要。RepeatModeler运行时间比较久,量力而行。

    -anno: 是否在构建TE文库后进行全基因组预测,默认是0.

    ===测试例子=====

    先用安装包里面知道的test数据试一下:

    cd test/

    perl ../EDTA.pl --genome genome.fa --cds genome.cds.fa --curatedlib ../database/rice6.9.5.liban --exclude genome.exclude.bed --overwrite 1 --sensitive 1 --anno 1 --evaluate 1 --threads 10

    运行结束之后,产生的文件:

    其中TEanno.sum是repeat注释的总结文件:

    其中TEanno.gff3是repeat注释的gff文件:

    ===测试真实数据===

    测试一下arabidopsis的Chr1染色体:

    准备Chr1.fa和Chr1.cds.fa文件

    perl ../EDTA.pl --genome Chr1.fa --cds Chr1.cds.fa  --sensitive 1 --anno 1 --evaluate 1 --threads 20 --force 1

    差不多1~2个小时就可以跑完。

    
    

    本文使用 文章同步助手 同步

    相关文章

      网友评论

          本文标题:repeat注释---EDTA

          本文链接:https://www.haomeiwen.com/subject/vwzjxrtx.html