美文网首页Linux与生物信息组学LTR类转座子收藏
2022-06-10关于基因组LAI评估的几点思考

2022-06-10关于基因组LAI评估的几点思考

作者: AsuraPrince | 来源:发表于2022-06-10 11:06 被阅读0次

    1. LTR鉴定和LAI评估(> 5G基因组)

    1)需要同时利用LTR_Finder和LTR_harvest同时鉴定,但是这两个都是单线程,巨慢,尤其是LTR_Finder。如果超大基因组这两个老是会因为超内存而跑断耗时很几天。

    2)好消息是LTR_Finder不再更新了,oushujun最新优化支持了多进程的LTR_FINDER_parallel. 但是LTR_harvest依旧只有单线程。

    3)为了速度可以利用把整个组装结果拆分成很多份的策略(当基因组大约5G时),然后以拆分后的fasta分别进行LTR_Finder和LTR_harvest,然后对每个拆分文件用LTR_retriever整合鉴定的结果,得到每个文件的*fasta.pass.list和*fasta.out的文件。进行手动合成一个文件(LTR_retriever -threads 4 -genome LAphicanu.1.fasta -infinder LAphicanu.1.ltrfinder.scn -inharvest LAphicanu.1.harvest.scn),作为LAI的输入文件(LAI -t 8 -genome all.fa -intact LAphicanu.all.fasta.mod.pass.list -all LAphicanu.all.fasta.mod.out),生成LAI评估结果。

    2. 2-5G基因组LAI评估

    建议拆分文件为每个1G或0.5的fasta,分别利用LTR_Finder进行LTR鉴定,然后手动cat到一块作为LTR_Finder的总数输出结果,或者不拆分直接用LTR_harvest。

    对于2-5G基因组,可以不拆分直接用LTR_harvest进行LTR鉴定,速度相对可以,就不建议拆分了。因为拆分后十分麻烦,直接cat scn文件会报错,所以必须要进行LTR_retriever之后才能合并,太麻烦了。

    值得注意:

    1.LTR_Finder支持harvest的格式输出(参数-harvest_out),可以直接与LTR_harvest结果合并,作为LTR_retriever输入文件。

    2.在基因组评估之前,最好对contig的id进行简化一下,比如不去除空格后的东西,会引起LTR_retriever环节报错;简化contig的ids到15个字符内,有些步骤对contig字符长度有要求。

    整个流程对于小基因组来说命令为:

    -------------------鉴定LTR--------------------------------

    1) ltr_finder LWflye.fasta > LWflye.scn

    2) gt suffixerator -db LWflye.fasta -indexname LWflye -tis -suf -lcp -des -ssp -sds -dna

         gt ltrharvest -index LWflye -seqids yes -maxlenltr 3500 > LWflye.harvest.scn

    ------------------整合LTR鉴定结果---------------------------

    LTR_retriever -threads 4 -genome LWflye.fasta -infinder LWflye.scn -inharvest LWflye.harvest.scn

    -----------------------LAI分析-----------------------------------

    LAI -t 4 -genome LWflye.fasta -intact LWflye.fasta.pass.list -all LWflye.fasta.out 

    相关文章

      网友评论

        本文标题:2022-06-10关于基因组LAI评估的几点思考

        本文链接:https://www.haomeiwen.com/subject/lczvmrtx.html