HiTE注释重复序列

作者: 徒唤奈何_c5f0 | 来源:发表于2024-09-02 14:06 被阅读0次

重复序列注释
重复序列注释
基因组注释--重复序列注释（一）：Trf软件安装与使用
RepeatMasker基于同源相似性实现重复序列注释
基因组注释①：LTR_Finder的安装与使用
TRF--Tandem Repeat Finder
EDTA-重复序列注释
基因组注释理论基础
REPuter注释叶绿体重复序列
RepeatModeler + RepeatMasker

使用conda安装HiTE

# Find the **yml** file in the project directory and run
cd HiTE
conda env create --name HiTE -f environment.yml
conda activate HiTE

# run HiTE
python main.py \
 --genome ${genome} \
 --thread ${thread} \
 --outdir ${output_dir} \
 [other parameters]
 
 # e.g., my command: python main.py 
 # --genome /home/hukang/HiTE/demo/genome.fa 
 # --thread 40 
 # --outdir /home/hukang/HiTE/demo/test/

我本来打算安装好之后使用conda-pack迁移到服务器使用，运行之后发现有部分依赖并不能被conda-pack迁移，比如LTR识别，以及他们的依赖包，需要迁移之后继续安装ltr_retriever 等几个包，不然会在ltr识别步骤停止无法继续。
这个包依赖很麻烦，还是建议使用容器运行。
安装之后运行，我使用的是本地pc，16线程 5800h，400m植物基因组运行约6h，总共运行了两次，第二次运行时把第一次运行产生的TE库作为输入lib运行。

python main.py --genome 0712.3 90m.last.chr.fasta --thread 16 --outdir HiTE.out

python main.py --genome 0712.390m.last.chr.fasta --outdir 003.genome.anno/HiTE.out/0902 --curated_lib 003.genome.anno/HiTE.out/TE_merge_tmp.fa.cla ssified --annotate 1 --thread 16

结果文件如下

HiTE.gff                    confident_helitron.fa    confident_tir.fa                      genome.rename.fa.pass.list
HiTE.out                    confident_helitron_0.fa  confident_tir_0.fa                    genome.rename.fa.retriever.all.scn
HiTE.tbl                    confident_ltr_cut.fa     genome.rename.fa                      genome_all.fa.rawLTR.scn
TE_merge_tmp.fa.classified  confident_non_ltr.fa     genome.rename.fa.LTRlib.fa            longest_repeats_0.fa
chr_name.map                confident_non_ltr_0.fa   genome.rename.fa.finder.combine.scn   longest_repeats_0.flanked.fa
confident_TE.cons.fa        confident_other.fa       genome.rename.fa.harvest.combine.scn

打开HiTE.tbl查看结果，发现重复序列的总数与预期相比很低，原本预期40%，但是统计只有22%，可能是库选择有问题。准备把HiTE，EDTA，repeatmodeler的库合并跑TEsorter，新建库之后再跑repeatmasker和HiTE。