美文网首页生物信息LTR基因组学
基因组注释①:LTR_Finder的安装与使用

基因组注释①:LTR_Finder的安装与使用

作者: 恭弥家的凤梨君 | 来源:发表于2022-04-12 21:14 被阅读0次

重复序列注释

“由于物种间重复序列的保守性相对较低,针对特定的物种进行重复序列的预测时需要构建特定的重复序列数据库。因此,我们借助LTR_FINDER 和RepeatScout 两个软件,基于结构预测和从头预测的原理构建该基因组的重复序列数据库,用PASTEClassifier 对数据库进行分类,然后与Repbase的数据库合并做为最终的重复序列数据库,然后利用RepeatMasker 软件基于构建好的重复序列数据库对该基因组进行重复序列的预测。”

重复序列软件参数:LTR_FINDER,RepeatScout,PASTEClassifier采用默认参数,RepeatMasker参数-nolow -no_is -norna -engine wublast

参考教程:基因组注释--重复序列注释(四):LTR_Finder安装与使用 - 简书


LTR_Finder的安装

首先进行第一个软件LTR_Finder的安装。

在服务器(Linux系统)中先cd进入到自己准备好安装LTR_Finder的文件夹内,

然后输入以下代码:

wget -c https://github.com/xzhub/LTR_Finder/blob/master/build/LTR_FINDER.x86_64-1.0.7.tar.gz

上述参考教程:wget命令出现Unable to establish SSL connection.的解决办法_大地雷的博客-CSDN博客

如果用上述代码依然没有下载到正确完全的压缩包,比如下载下来的只是html,可以直接打开上述网址,将其压缩包下载到本地之后,再拖入WinSCP中,后续解压命令依然可以进行

此处wget使用的参考教程:Windows环境下使用wget的详细操作步骤(zip压缩包+环境配置)【超详细】_牛哄哄的柯南的博客-CSDN博客_wget windows

win10系统安装wget的最详细步骤_想成为code的大佬的博客-CSDN博客_wget win10

windows下安装wget_向上的太阳花的博客-CSDN博客_windows安装wget

wget的使用方法详解 - 知乎

同时也是Windows系统下如何使用wget的教程,主要看第一个教程。


LTR_Finder的使用

LTR_Finder所需的输入文件:curated.fasta

                             输出文件:curated.finder.scn

./ltr_finder -c curated.fasta >curated.finder.scn

这里是默认参数。没有进行设置。若要进行参数的设置,则命令如下(参数是师兄设置的,只是做一个参考):

./ltr_finder -D 15000 -d 1000 -L 7000 -l 100 -p 20 -C -M 0.9 curated.fasta >curated.finder.scn

./ltr_finder -h 可以查看详细的参数说明,重要参数的说明如下:

-o Gap开罚分 (正整数),默认3

-t Gap延伸罚分 (正整数),默认1

-e Gap终点罚分 (正整数),默认1

-M 最小的LTR相似度

-m Match得分 (正整数),默认2

-u unmatch得分 (负整数),默认-2

-D 5'和3'LTR之间的最大距离 (正整数),默认20000

-d 5'和3'LTR之间的最小距离 (正整数),默认1000

-L 最大5'和3'LTR长度 (正整数),默认3500

-l 最小5'和3'LTR长度 (正整数),默认100

-g joined pairs间最大Gap (正整数),默认50

-G RT子域之间的最大间隔(正整数),默认2

-p 完全匹配的最小长度 (正整数),默认20

-r 用于PBS检测的最小匹配长度 (正整数):默认14, [1,18]

-s 通过使用哪个tRNA数据库来预测PBS (文件名)

-a 使用ps_scan预测(目录名)

-S 输出分数阈值 (整数),默认6.00, [0,10]

-B 清晰度较高阈值 (0到1之间的小数),默认0.400, [0,1]

-b 清晰度较低阈值 (0和1之间的小数),默认0.400, [0,1]

-w 输出格式 (0,1或2),[0]-full, 1-summary, 2-table

-O 输出文件对齐方式长度的长度 (正整数),默认40

-C 检测中心粒(centriole)删除高度重复区域

-F 信号状态控制 (01字符串),默认0:10000000000 5'-LTR must have TG

01000000000 5'-LTR must have CA

00100000000 3'-LTR must have TG

00010000000 3'-LTR must have CA

00001000000 TSR must be found

00000100000 PBS must be found

00000010000 PPT must be found

00000001000 RT domain muse be found

00000000100 Integrase core must be found

00000000010 Integrase c-term must be found

00000000001 RNase H must be found

关于上述参数的参考教程有:基因组质量评估 | LAI - 简书

运行得到curated.finder.scn文件即可完成。

相关文章

网友评论

    本文标题:基因组注释①:LTR_Finder的安装与使用

    本文链接:https://www.haomeiwen.com/subject/igvnsrtx.html