美文网首页Linux与生物信息组学
基因注释:PASA生成用于training的转录组文件

基因注释:PASA生成用于training的转录组文件

作者: 橙子_orange | 来源:发表于2021-12-31 17:11 被阅读0次

    1.安装依赖项

    1.1 gmap
    wget -c http://research-pub.gene.com/gmap/src/gmap-gsnap-2021-12-17.tar.gz
    tar zxvf gmap-gsnap-2021-12-17.tar.gz
    mkdir gmap && rm gmap-gsnap-2021-12-17.tar.gz && cd gmap-2021-12-17
    ./configure --prefix=/path/gmap
    make && make install
    cd .. && rm -r gmap-2021-12-17
    echo 'PATH=$PATH:/path/gmap/bin/' >> ~/.bashrc
    source ~/.bashrc
    
    1.2 blat
    wget https://users.soe.ucsc.edu/~kent/src/blatSrc35.zip
    unzip blatSrc35.zip && rm blatSrc35.zip && cd blatSrc
    uname -a #查看Linux版本类型,我的电脑是x86_64
    export MACHTYPE=x86_64
    mkdir -p ~/bin/x86_64
    make 
    echo 'PATH=$PATH:/home/bin/x86_64/' >> ~/.bashrc
    source ~/.bashrc
    

    2.安装PASA

    wget https://github.com/PASApipeline/PASApipeline/releases/download/pasa-v2.5.1/PASApipeline-v2.4.1.FULL.tar.gz
    tar zvxf PASApipeline-v2.4.1.FULL.tar.gz
    rm PASApipeline-v2.4.1.FULL.tar.gz && cd PASApipeline-v2.4.1
    make -j 8
    

    3.运行PASA pipeline

    输入文件:
    ●基因组序列:genome.fasta
    ●Trinity组装的转录组序列:transcripts.fasta
    ●(可选)transcripts.fasta中属于全长cDNA的序列名的集合:FL_accs.txt

    cp $PASAHOME/pasa_conf/pasa.alignAssembly.Template.txt  alignAssembly.config
    vi alignAssembly.config
    # database settings
    DATABASE=/tmp/database.sqlite #使用SQLite数据库
    #若使用MySQL数据库,只指定名称,DATABASE=my_pasa_db
    #script validate_alignments_in_db.dbi
    validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80
    validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80
    #script subcluster_builder.dbi
    subcluster_builder.dbi:-m=50
    
    如果将DATABASE设为绝对路径(即 /path/database.sqlite),则使用SQLite数据库;若只指定数据库名称(即my_pasa_db),则默认使用 MySQL。
    MySQL启用多线程,比SQLite速度快,但配置很麻烦(为PASA配置MySQL的教程:https://github.com/PASApipeline/PASApipeline/wiki/setting-up-pasa-mysql
    运行PASA:
    $PASAHOME/Launch_PASA_pipeline.pl -c alignAssembly.config -C -R -g reference.fasta  -t trinity.fasta --ALIGNERS blat,gmap --CPU 12
    

    4.报错解决

    (1)DBD::SQLite::db do failed: table URL_templates already exists at /path/PASApipeline-v2.5.1/scripts/create_sqlite_cdnaassembly_db.dbi line 62.
    解决:rm /tmp/database.sqlite ,删除之前生成的同名数据库文件
    (2)依然报错:
    Can't exec "gmap":No such file or directory
    试过很多方法,包括升级/降级gmap版本,均无效,所以--ALIGNERS选项删减为只有blat
    正常运行,结果中的database.sqlite.assemblies.fasta和database.sqlite.pasa_assemblies.gff3用于提取ORF(开放阅读框)

    5.从PASA组装中提取ORF

     /path/PASApipeline-v2.5.1/scripts/pasa_asmbls_to_training_set.dbi  --pasa_transcripts_fasta database.sqlite.assemblies.fasta --pasa_transcripts_gff3 database.sqlite.pasa_assemblies.gff3
    
    生成一系列文件database.sqlite.assemblies.fasta.transdecoder.*
    提取ORF生成的文件
    ......transdecoder.cds/pep/gff3/bed: 虽然不在基因组上,但是根据转录本信息,有可能是编码区的结果
    ......transdecoder.genome.bed/gff3: 对应基因组序列的基因模型,经格式转换后用于基因预测

    参考文章:
    blat下载与安装 - 简书 (jianshu.com)
    PASA的使用 | 陈连福的生信博客 (chenlianfu.com)
    解决:fatal error: openssl/ssl.h: No such file or directory_徊忆羽菲-CSDN博客
    使用MAKER进行基因注释(高级篇之AUGUSTUS模型训练) - 简书 (jianshu.com)

    相关文章

      网友评论

        本文标题:基因注释:PASA生成用于training的转录组文件

        本文链接:https://www.haomeiwen.com/subject/ucwgqrtx.html