美文网首页
HiTE注释重复序列

HiTE注释重复序列

作者: 徒唤奈何_c5f0 | 来源:发表于2024-09-02 14:06 被阅读0次

使用conda安装HiTE

# Find the **yml** file in the project directory and run
cd HiTE
conda env create --name HiTE -f environment.yml
conda activate HiTE

# run HiTE
python main.py \
 --genome ${genome} \
 --thread ${thread} \
 --outdir ${output_dir} \
 [other parameters]
 
 # e.g., my command: python main.py 
 # --genome /home/hukang/HiTE/demo/genome.fa 
 # --thread 40 
 # --outdir /home/hukang/HiTE/demo/test/

我本来打算安装好之后使用conda-pack迁移到服务器使用,运行之后发现有部分依赖并不能被conda-pack迁移,比如LTR识别,以及他们的依赖包,需要迁移之后继续安装ltr_retriever 等几个包,不然会在ltr识别步骤停止无法继续。
这个包依赖很麻烦,还是建议使用容器运行。
安装之后运行,我使用的是本地pc,16线程 5800h,400m植物基因组运行约6h,总共运行了两次,第二次运行时把第一次运行产生的TE库作为输入lib运行。

python main.py --genome 0712.3 90m.last.chr.fasta --thread 16 --outdir HiTE.out

python main.py --genome 0712.390m.last.chr.fasta --outdir 003.genome.anno/HiTE.out/0902 --curated_lib 003.genome.anno/HiTE.out/TE_merge_tmp.fa.cla ssified --annotate 1 --thread 16

结果文件如下

HiTE.gff                    confident_helitron.fa    confident_tir.fa                      genome.rename.fa.pass.list
HiTE.out                    confident_helitron_0.fa  confident_tir_0.fa                    genome.rename.fa.retriever.all.scn
HiTE.tbl                    confident_ltr_cut.fa     genome.rename.fa                      genome_all.fa.rawLTR.scn
TE_merge_tmp.fa.classified  confident_non_ltr.fa     genome.rename.fa.LTRlib.fa            longest_repeats_0.fa
chr_name.map                confident_non_ltr_0.fa   genome.rename.fa.finder.combine.scn   longest_repeats_0.flanked.fa
confident_TE.cons.fa        confident_other.fa       genome.rename.fa.harvest.combine.scn

打开HiTE.tbl查看结果,发现重复序列的总数与预期相比很低,原本预期40%,但是统计只有22%,可能是库选择有问题。准备把HiTE,EDTA,repeatmodeler的库合并跑TEsorter,新建库之后再跑repeatmasker和HiTE。

相关文章

  • 重复序列注释

    基因组注释第一步:重复序列注释 串联重复序列(卫星序列) :特定的单元首尾相连特定的单元散落:散在重复序列(转座子...

  • 重复序列注释

    重复序列广泛存在于真核生物基因组中, 这些重复序列或集中成簇, 或分散在基因之间。根据分布把重复序列分为散在重复序...

  • 基因组注释--重复序列注释(一):Trf软件安装与使用

    前言 动植物基因组注释包括重复序列注释以及基因结构注释,重复序列注释是注释中非常重要的环节,主要包括的软件有T...

  • RepeatMasker基于同源相似性实现重复序列注释

    重复序列注释有两种常用策略,基于同源序列相似性和基于重复序列结构特征。其中基于同源序列相似性注释序列的常用工具就是...

  • 基因组注释①:LTR_Finder的安装与使用

    重复序列注释 “由于物种间重复序列的保守性相对较低,针对特定的物种进行重复序列的预测时需要构建特定的重复序列数据库...

  • TRF--Tandem Repeat Finder

    TRF软件是基因组注释中常用于检测序列中串联重复序列的软件,无需安装,使用简单方便。 1. 重复序列分为串联重复序...

  • EDTA-重复序列注释

    EDTA (Extensive de novo TE Annotator), TE注释工具 整合了几款TE注释工具...

  • 基因组注释理论基础

    基因组注释主要包括四个方面: 重复序列识别 序列比对方法 RepeatScout、LTR-finder、T...

  • REPuter注释叶绿体重复序列

    REPuter可注释叶绿体重复序列,包括4种类型,Forward(F), Reverse (R), Complem...

  • RepeatModeler + RepeatMasker

    在基因组注释中第一步就是重复序列的屏蔽,目前常用的从头注释pipeline就是RepeatModeler + Re...

网友评论

      本文标题:HiTE注释重复序列

      本文链接:https://www.haomeiwen.com/subject/zamhljtx.html