美文网首页NLR相关知识库
寻找R gene三种方法之RGAugury

寻找R gene三种方法之RGAugury

作者: Ernie8 | 来源:发表于2020-07-24 15:20 被阅读0次

    特别感谢卖萌哥对于R gene的资源分享和指导帮助

    参考文献:RGAugury: a pipeline for genome-wide prediction of resistance gene analogs (RGAs) in plants
    Resistance gene analogs(RGAs)包括编码NBS的蛋白、受体激酶(receptor-like protein kinases,RLKs)和受体蛋白(receptor-like proteins,RLPs)。受体蛋白与受体激酶主要作为细胞表面的模式识别受体(pattern-recognition receptors,PRRs),对微生物/病原物相关分子模式(Microbe/Pathogen- associated molecular patterns, MAMPs/PAMPs)识别,引起的植物第一层免疫系统——微生物/病原物相关分子模式触发的免疫(MAMP/PAMP-triggered immunity,MTI/PTI)。
    R (Resistence) gene主要与植物防御机制中的ETI(Effector-triggered immunity)防御机制有关,其主要功能结构域为NB-ARC(PF00931),与LRR相连发挥识别病原菌,并对其进行防御。根据与R gene相连不同的domain分为不同类型的R gene。

    RGA分类

    RGAugury pipeline(希望大家的网速都很快,无论是使用conda,还是wget或者axel)

    流程的帮助文档:RGAugury Wiki

    事先在简书中找到一篇相关解读:文献笔记四十八:在基因组水平上预测植物抗性基因类似物的流程RGAugury(这位老哥帮助我避免踩interproscan的坑)
    正如他所言,RGAugury的麻烦主要是在它不仅需要安装多种软件,还需要安装多种依赖perl模块。熟悉生信的人一定会说能用conda安装的软件一定要用conda,conda里的perl也可以用于安装模块。但我在尝试的最后放弃了使用conda的方法,原因主要有
    1.初步尝试时一定要弄清你用的是哪个perl,即which perl(细节蛮重要的)
    2.Moose和Log::Log4perl两个perl模块十分重要,但我用conda的perl安装Moose模块的时候无法安装(主要还是自己太菜,不懂perl)
    3.conda中的pfam_scan.pl似乎与流程中设置好的PFAMDB无法关联起来,导致了报错
    Ps:其实安装perl模块直接用cpan install module,安装不成功可能与cpan的设置有关,像PFAMDB可能直接放在conda环境的路径中,并加入环境变量,也许就能使用了,以后再尝试吧

    所以最终选择了手动安装软件的方法
    (对于sudo用户便捷,所以你可能需要麻烦你的管理员,注意系统位数,有些软件可能也事先也安装过了)
    1.BLAST+

    # 下载ncbi-blast-2.10.1+-x64-linux.tar.gz
    wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.10.1+-x64-linux.tar.gz
    tar -zxvf ncbi-blast-2.10.1+-x64-linux.tar.gz -C /your path/ #解压到适当目录(你需要的路径)
    #我习惯装好软件就添加到环境变量中,并进行测试。下同。你可以通过echo $PATH查看你的环境变量,选择第一个属于你帐号的路径
    vim ~/.bashrc
    export PATH=$PATH:/your path/blast/bin #注意软件路径和软件文件夹名称
    #保存.bashrc后进行
    source ~/.bashrc 
    

    后面软件安装完成后,利用blast任何一个功能进行测试,例如blastn -h会有如下显示,表明运行成功(后面不再演示)。

    安装完成测试
    2.hmmer3
    # 下载ncbi-blast-2.10.1+-x64-linux.tar.gz
    wget -c http://eddylab.org/software/hmmer/hmmer-3.3.tar.gz
    tar -zxvf hmmer-3.3.tar.gz -C /your path/
    

    3.pfam_scanpfam database

    # 下载pfam_scan
    wget -c ftp://ftp.ebi.ac.uk/pub/databases/Pfam/Tools/PfamScan.tar.gz
    tar -zxvf hmmer-3.3.tar.gz -C /your path/
    #下载pfam数据库
    wget -c ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz
    gunzip Pfam-A.hmm.gz
    #解压完成记得初始化
    hmmpress Pfam-A.hmm
    #文档路径有要求,参照帮助文档
    export PFAMDB=/home/user name/database/pfamdb           #to specifiy the hmm pfam-A/B DB path,user name为用户名
    

    4.Phobius 1.01
    需要安装在32位环境下
    这款软件通过登记信息发送到邮箱进行下载,之后通过ftp上传到服务器中进行解压。

    Phobius 1.01.jpg
    5.ncoils已经存储在RGAugury中
    6.git
    Download for Linux and Unix
    7.jdk(强烈建议用sudo安装)
    #下载合适版本的jdk,注册登录后获得网址
    wget -c 
    tar -zxvf xxxx.tar.gz
    #或者sudo模式安装
    sudo apt update
    sudo apt install openjdk-8-jdk openjdk-8-jre
    #详情可以参照https://tecadmin.net/install-oracle-java-8-ubuntu-via-ppa/
    

    8.interproscan下载合适的版本
    建议安装较低版本interproscan,例如interproscan-5.32-71.0interproscan的版本需要和jdk搭配,例如interproscan-5.32-71.0和jdk-,这里是最麻烦的。此外interproscan有9G左右的大小,请耐心等待。
    可以参考InterProScan的使用教程

    #下载interproscan-5.32-71.0 
    wget -c ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.32-71.0/interproscan-5.32-71.0-64-bit.tar.gz
    wget -c ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.32-71.0/interproscan-5.32-71.0-64-bit.tar.gz.md5
    #下载完成后检查文件完整性
    md5sum -c interproscan-5.32-71.0-64-bit.tar.gz.md5
    #显示interproscan-5.32-71.0-64-bit.tar.gz:ok则表示文件完整
    tar -zxvf interproscan-5.32-71.0-64-bit.tar.gz -C/your path/
    #加入环境变量后, 可选择下载panther-data-xx.x.tar.gz压缩包到interproscan-x.xx-xx.0/data/目录下(大小有10G以上)
    wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-14.1.tar.gz
    wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-14.1.tar.gz.md5
    md5sum -c panther-data-14.1.tar.gz.md5
    #panther-data-14.1.tar.gz:ok
    tar -zxvf panther-data-11.1.tar.gz
    #可选项,看你需要不要Match Lookup Service,因为我是本地化,不想联网操作,因此就会禁止这项操作
    vim interproscan-5.24-63.0/interproscan.properties
    #去掉下面这行代码
    precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup
    

    9.CViT
    可视化过程未尝试,有机会的话以后更新
    10.perl模块安装
    虽然帮助文档里有很多library和module,但我们只需要RGAugury的依赖模块和pfam_scan.pl的依赖模块。
    均采用cpan install module就可以快速安装完成(建议在root用户下安装)

    cpan insatll Log::Log4perl #这个也可手动安装,详情http://search.cpan.org/~mschilli/
    cpan install Moose
    cpan install BioPerl
    

    11.下载RGAugury

    git clone https://bitbucket.org/yaanlpc/rgaugury.git
    chmod 755 *.pl
    chmod 755 scoils-ht
    

    汇总下.bashrc或者.bash_profile环境变量设置(假设用户名为xxx)
    环境变量的路径名称一定要和软件路径名称对应

    export PATH=$PATH:/home/xxx/your path/phobius1.01  # to specify the path of phobius.pl script and binary.
    
    export PATH=$PATH:/home/xxx/your path/hmmer3/bin   # binary path
    
    export PATH=$PATH:/home/xxx/your path/blast/bin    # binary path of blast+ package
    
    export PATH=$PATH:/home/xxx/your path/RGAugury/rgaugury # this package scripts path
    
    export PATH=$PATH:/home/xxx/your path/RGAugury/rgaugury/coils  #the path to scoils-ht, which is a modified version of coils to adapt to RGAugury pipeline.
    
    export PATH=$PATH:/home/xxx/your path/interproscan-x.xx-xx.0    #download latest one as your wish. Do not add the path of "bin" under interproscan directory.
    
    export PATH=$PATH:/home/xxx/your path/PfamScan    #to specify the path for script of pfam_scan.pl
    
    export COILSDIR=/home/xxx/your path/RGAugury/rgaugury/coils # or create a plain file with putting this command only but a directory all user can access and drop it to /etc/profile.d/, file permission changes to 755, otherwise export it to user's profile and point to another user authorized directory
    
    export PERL5LIB=/home/xxx/your path/PfamScan:$PERL5LIB  #perl module for pfam_scan.pl
    
    export PFAMDB=/home/xxx/database/pfamdb           #to specifiy the hmm pfam-A/B DB path
    

    大致样子如下


    环境变量汇总

    终于可以运行RGAugury试试看了

    perl rgaugury/RGAugury.pl -p protein.faa -c 10 -pfx Output
    #arguments: 
            -p           protein fasta file
            -n           corresponding cDNA/CDS nucleotide for -p   (optional)
            -g           genome file in fasta format   (optional)
            -gff         a modified gff3-like file, see below format  (optional)
            -c           cpu or threads number, default = 2
            -pfx         prefix for filename, useful for multiple speices input in same folder   (optional)
    

    关于gff文件格式在帮助文档中也有说明。gff文件主要可以进行可视化
    最后放下运行成功结果
    无论是来自nohup.out还是程序自身的xxx.status.log(xxx为-pfx 文件前缀)


    cheering

    更多阅读推荐

    生信技能树公益视频合辑:学习顺序是linux,r,软件安装,geo,小技巧,ngs组学!
    B站链接:https://m.bilibili.com/space/338686099
    YouTube链接:https://m.youtube.com/channel/UC67sImqK7V8tSWHMG8azIVA/playlists
    生信工程师入门最佳指南:https://mp.weixin.qq.com/s/vaX4ttaLIa19MefD86WfUA
    学徒培养:https://mp.weixin.qq.com/s/3jw3_PgZXYd7FomxEMxFmw
    文献阅读需搜索,推荐文献鸟

    相关文章

      网友评论

        本文标题:寻找R gene三种方法之RGAugury

        本文链接:https://www.haomeiwen.com/subject/qsyhlktx.html