重复序列广泛存在于真核生物基因组中, 这些重复序列或集中成簇, 或分散在基因之间。根据分布把重复序列分为散在重复序列和串联重复序列。
重复序列的分类


重复序列注释流程

参考脚本
由于RepeatModeler、RepeatMasker软件安装比较复杂,作者已经提供了singularity和docker容器
下载地址:GitHub - Dfam-consortium/TETools: Dfam Transposable Element Tools Docker container.
# 构建数据库
singularity exec ../software/TETools.sif
BuildDatabase \
-name ge \ # 数据库名称
./genome.fasta # 输入基因组文件
# 运行 RepeatModeler
singularity exec ../software/TETools.sif
RepeatModeler \
-database ge \
-pa 10 # 线程数 \
-LTRStruct 1>ge.log 2>&1
#运行 RepeatMasker
singularity exec ../software/TETools.sif
RepeatMasker \
-e rmblast \ # 方法
-pa 20 \
-qq \
-lib ge-families.fa \
./genome.fasta >gemasker.log 2>&1
-
统计结果
网友评论