美文网首页生物信息学与算法rice related analysis生信相关
LTR_retriever: 一个更加准的LTR整合分析工具

LTR_retriever: 一个更加准的LTR整合分析工具

作者: xuzhougeng | 来源:发表于2019-02-22 15:25 被阅读68次

    背景篇

    在植物基因组中,I类转座因子,LTR-RT(LTR retrotransposons)是基因组扩张的主要原因。完整的LTR长度在85~5000 bp之间,下图图A表示的是一个完整的LTR-RT,灰色框表示TSD(target site duplications), 红色三角形表示LTR motif(长度在2bp左右), 蓝色框表示LTR。LTR中间序列长度在1,000~15,000之间波动。

    LTR-RT结构

    完整的LTR-RT主要归为两大类: Gypsy和Copia。如果LTR中间的序列不包含开放阅读框(ORF), 那么所属的LTR-RT就无法独立的转座。

    安装篇

    LTR_retriever不是一个独立的工具,他的主要作用就是整合LTRharvest, LTR_FINDER 和/或MGEScan_LTR的结果,过滤其中的假阳性LTR-RT,得到高质量的LTR-RT库。

    先下载LTR_retriever本体

    git clone https://github.com/oushujun/LTR_retriever.git
    

    之后修改LTR_retriever下的paths, 提供BLAST+, RepeatMasker, HMMER, CDHIT这些工具的路径。

    BLAST+=/your_path_to/BLAST+2.2.30/bin/
    RepeatMasker=/your_path_to/RepeatMasker4.0.0/
    HMMER=/your_path_to/HMMER3.1b2/bin/
    CDHIT=/your_path_to/CDHIT4.6.1/
    BLAST=/your_path_to/BLAST2.2.26/bin/ #not required if CDHIT provided
    

    此外你还需要额外安装LTRharvest, LTR_FINDERMGEScan_LTR

    本文主要使用LTRharverst和LTR_FINDER

    使用篇

    以拟南芥的基因组序列为例,分别使用LTRharverst和LTR_FINDER来寻找拟南芥中潜在LTR序列,之后用LTR_retreiver来合并结果。

    #LTRharvest
    gt suffixerator \
      -db TAIR10.fa \
      -indexname TAIR10 \
      -tis -suf -lcp -des -ssp -sds -dna
    gt ltrharvest \
      -index TAIR10 \
      -similar 90 -vic 10 -seed 20 -seqids yes \
      -minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 \
      -motif TGCA -motifmis 1  > TAIR10.harvest.scn &
    # LTR_FINDER
    ltr_finder -D 15000 -d 1000 -L 7000 -l 100 -p 20 -C -M 0.9 TAIR10.fa > TAIR10.finder.scn &
    

    LTR_retriever支持单个候选的LTR,

    LTR_retriever -genome TAIR10.fa -inharvest TAIR10.harvest.scn
    

    也支持多个候选LTR输入

    LTR_retriever -genome TAIR10.fa -inharvest TAIR10.harvest.scn -infinder TAIR10.finder.scn -threads 20
    

    输出文件如下

    运行结果

    其他测试

    LAI值是作者提出用于衡量基因组完整度参数。比较2个LTR输入和1个LTR输入的LAI值,后者是15.62,前者是14.47,这也意味这个值其实是受到输入的候选LTR数目影响,但最终结果应该稳定在一个阈值内。

    我测试了多个物种在两种软件下找到的LTR,以及最终pass留下的LTR。

    物种 基因组大小 LTR_finder ltrharvest Pass LAI
    A. lyrata 206M 1456 1017 1044 20.39
    A. thaliana (TAIR10) 120 M 207 550 184 15.62
    B. rapa (3.0) 353 M 3515 3635
    C.rubella 135 M 643 600 144 10.96
    A.alpina 336 M 3840 3107

    LTR插入时间分析

    LTR_retriever会为每个LTR计算插入时间,上述分析的结果在TAIR10.fa.pass.list中,我们可以利用该结果进行作图。该值默认是水稻的1.3e-8, 拟南芥大概是 7e-9.

    例如[1]比较了 A. lyrataA. thaliana 的LTR插入时间的均值和中位数, 发现 A. lyrata 的LTR插入时间都比较年轻。

    [2]比较了 C. rubella , A. thaliana, A. lyrata, 发现 C. rubellaA.thalina 没有啥显著的差异,毕竟基因组也就是134.4 Mb。

    LTR插入时间

    参考文献:

    • [1] The Capsella rubella genome and the genomic consequences of rapid mating system evolution
    • [2] The Arabidopsis lyrata genome sequence and the basis of rapid genome size change
    • [3] The Rate and Molecular Spectrum of Spontaneous Mutations in Arabidopsis thaliana

    相关文章

      网友评论

        本文标题:LTR_retriever: 一个更加准的LTR整合分析工具

        本文链接:https://www.haomeiwen.com/subject/qhgrlqtx.html