美文网首页
HiTE注释重复序列

HiTE注释重复序列

作者: 徒唤奈何_c5f0 | 来源:发表于2024-09-02 14:06 被阅读0次

    使用conda安装HiTE

    # Find the **yml** file in the project directory and run
    cd HiTE
    conda env create --name HiTE -f environment.yml
    conda activate HiTE
    
    # run HiTE
    python main.py \
     --genome ${genome} \
     --thread ${thread} \
     --outdir ${output_dir} \
     [other parameters]
     
     # e.g., my command: python main.py 
     # --genome /home/hukang/HiTE/demo/genome.fa 
     # --thread 40 
     # --outdir /home/hukang/HiTE/demo/test/
    

    我本来打算安装好之后使用conda-pack迁移到服务器使用,运行之后发现有部分依赖并不能被conda-pack迁移,比如LTR识别,以及他们的依赖包,需要迁移之后继续安装ltr_retriever 等几个包,不然会在ltr识别步骤停止无法继续。
    这个包依赖很麻烦,还是建议使用容器运行。
    安装之后运行,我使用的是本地pc,16线程 5800h,400m植物基因组运行约6h,总共运行了两次,第二次运行时把第一次运行产生的TE库作为输入lib运行。

    python main.py --genome 0712.3 90m.last.chr.fasta --thread 16 --outdir HiTE.out
    
    python main.py --genome 0712.390m.last.chr.fasta --outdir 003.genome.anno/HiTE.out/0902 --curated_lib 003.genome.anno/HiTE.out/TE_merge_tmp.fa.cla ssified --annotate 1 --thread 16
    
    

    结果文件如下

    HiTE.gff                    confident_helitron.fa    confident_tir.fa                      genome.rename.fa.pass.list
    HiTE.out                    confident_helitron_0.fa  confident_tir_0.fa                    genome.rename.fa.retriever.all.scn
    HiTE.tbl                    confident_ltr_cut.fa     genome.rename.fa                      genome_all.fa.rawLTR.scn
    TE_merge_tmp.fa.classified  confident_non_ltr.fa     genome.rename.fa.LTRlib.fa            longest_repeats_0.fa
    chr_name.map                confident_non_ltr_0.fa   genome.rename.fa.finder.combine.scn   longest_repeats_0.flanked.fa
    confident_TE.cons.fa        confident_other.fa       genome.rename.fa.harvest.combine.scn
    

    打开HiTE.tbl查看结果,发现重复序列的总数与预期相比很低,原本预期40%,但是统计只有22%,可能是库选择有问题。准备把HiTE,EDTA,repeatmodeler的库合并跑TEsorter,新建库之后再跑repeatmasker和HiTE。

    相关文章

      网友评论

          本文标题:HiTE注释重复序列

          本文链接:https://www.haomeiwen.com/subject/zamhljtx.html