美文网首页基因组基因组组装
利用LTR_retriever整合LTR数据集

利用LTR_retriever整合LTR数据集

作者: 多啦A梦的时光机_648d | 来源:发表于2019-10-23 10:53 被阅读0次

下载地址

一:安装

  1. 可以conda安装或自己手动安装
$conda create -n LTR_retriever
$conda activate LTR_retriever
$conda install -y -c conda-forge perl perl-text-soundex
$conda install -y -c bioconda cd-hit repeatmasker
$git clone https://github.com/oushujun/LTR_retriever.git
$./LTR_retriever/LTR_retriever -h
  1. 除此之外还需要安几个依赖的软件
1. makeblastdb, blastn, and blastx in the BLAST+ package (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/)
2. cd-hit-est in the CDHIT package (http://weizhongli-lab.org/cd-hit/) OR blastclust in the BLAST package (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy/2.2.25/)
3. hmmsearch in the HMMER package (http://hmmer.org/; v3.1b2 or higher)
4. RepeatMasker (http://www.repeatmasker.org/)

其中安装RepeatMasker需要一个Dfam.hmm以及RepBase RepeatMasker Edition,可以在这下载:

RepBase RepeatMasker Edition: https://pan.baidu.com/s/1c2zSMKo
Dfam.hmm:                     https://www.dfam.org/releases/Dfam_3.1/families/Dfam.embl.gz

RepeatMasker比较常用的参数如下:

-e: 搜索引擎,默认都选择ncbi
-pa: 并行计算,多线程
-s, -q, -qq: 搜索速度,速度和敏感度成反比
-lib: 自定义重复数据库
-species: 指定物种,例如human, mouse, arabidopsis
-gff: 额外输出GFF文件
  1. 开始安装
$perl ./configure

然后修改LTR_retriever的'paths'文件:

$vim /your_path_to/LTR_retriever/paths

修改:

BLAST+=/your_path_to/BLAST+2.2.30/bin/
RepeatMasker=/your_path_to/RepeatMasker4.0.0/
HMMER=/your_path_to/HMMER3.1b2/bin/
CDHIT=/your_path_to/CDHIT4.6.1/
BLAST=/your_path_to/BLAST2.2.26/bin/ #not required if CDHIT provided
BLAST+=/data1/spider/ytbiosoft/soft/ncbi-blast-2.8.1+/bin/
RepeatMasker=/data1/spider/ytbiosoft/soft/RepeatMasker-master
HMMER=/data1/spider/ytbiosoft/soft/hmmer/hmmer-3.2.1/src
CDHIT=/data1/spider/ytbiosoft/miniconda3/envs/python3/bin/cd-hit
BLAST=/data1/spider/ytbiosoft/miniconda3/envs/python3/bin/

二:数据输入

数据有如下两个:

  • Genomic sequence
  • LTR-RT candidates(可以接受多个LTR输入,包括 LTRharvest以及 LTR_FINDER等的输出结果:2个足以)
    两个软件的下载地址:
LTR_Finder:https://github.com/xzhub/LTR_Finder.git
LTRharvest:http://genometools.org/
  1. LTRharvest


    LTRharvest
$gt suffixerator \ 
-db $REFERENCE \ 
-indexname $SPECIES \ 
-tis -suf -lcp -des -ssp -sds -dna
 
$gt ltrharvest \ 
-index $SPECIES \ 
-similar 90 -vic 10 -seed 20 -seqids yes \ 
-minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 \ 
-motif TGCA -motifmis 1 > $SPECIES.harvest.scn &
  1. LTR_Finder
$tar -zxvf  LTR_Finder.tar.gz
$cd source && make
$ltr-finder -D 15000 -d 1000 -L 7000 -l 100 -p 20 -C -M 0.9 $REFERENCE > $SPECIES.finder.scn &

三.运行程序(支持一个输入或者多个输入)

一个输入

$LTR_retriever -genome $REFERENCE -inharvest $SPECIES.harvest.scn

多个输入

$LTR_retriever -genome $REFERENCE -inharvest $SPECIES.harvest.scn -infinder $SPECIES.finder.scn -threads 20

输出为$REFERENCE.LTRlib.fa,重命名为LTR.lib,作为后续repeatmasker屏蔽重复时的输入文件。

相关文章

  • 利用LTR_retriever整合LTR数据集

    下载地址 一:安装 可以conda安装或自己手动安装 除此之外还需要安几个依赖的软件 其中安装RepeatMask...

  • LTR_retriever: 一个更加准的LTR整合分析工具

    背景篇 在植物基因组中,I类转座因子,LTR-RT(LTR retrotransposons)是基因组扩张的主要原...

  • 2022-06-10关于基因组LAI评估的几点思考

    1. LTR鉴定和LAI评估(> 5G基因组) 1)需要同时利用LTR_Finder和LTR_harvest同时鉴...

  • Seurat4.0系列教程15:映射和注释查询数据集

    单细胞参考映射简介 在此教程中,我们首先构建一个整合的参考集,然后演示如何利用此参考集来注释新的查询数据集。生成参...

  • 生信人的GEO-2

    整合多个GSE数据集挖掘肿瘤重要基因 都是关于肺癌的数据挖掘文章,而且是整合多个GSE数据集 组织病理上通常将肺癌...

  • SAS中的数据清洗

    1.数据合并 (1)利用set语句纵向合并 data数据集; set数据集1(数据集选项)数据集2(数据集选项...

  • KNN算法应用

    1. 利用Iris数据集来使用KNN算法 1.1 Iris数据集介绍 Iris数据集是常用的分类实验数据集,由F...

  • 背单词 2020-10-19

    ultraviolet /ˌʌltrəˈvaɪələt/ adj. 紫外线的;利用紫外线的 (abbreviat...

  • CS231N学习记录

    数据集:训练集+验证集+测试集 交叉验证:当训练数据太小时,为了更好地利用数据,那么将训练数据集划分成n份,其中n...

  • 链接

    Leaning To Rank LTR 简介LTR for imformation retrievalLambda...

网友评论

    本文标题:利用LTR_retriever整合LTR数据集

    本文链接:https://www.haomeiwen.com/subject/rcmhvctx.html