1.安装依赖项
1.1 gmap
wget -c http://research-pub.gene.com/gmap/src/gmap-gsnap-2021-12-17.tar.gz
tar zxvf gmap-gsnap-2021-12-17.tar.gz
mkdir gmap && rm gmap-gsnap-2021-12-17.tar.gz && cd gmap-2021-12-17
./configure --prefix=/path/gmap
make && make install
cd .. && rm -r gmap-2021-12-17
echo 'PATH=$PATH:/path/gmap/bin/' >> ~/.bashrc
source ~/.bashrc
1.2 blat
wget https://users.soe.ucsc.edu/~kent/src/blatSrc35.zip
unzip blatSrc35.zip && rm blatSrc35.zip && cd blatSrc
uname -a #查看Linux版本类型,我的电脑是x86_64
export MACHTYPE=x86_64
mkdir -p ~/bin/x86_64
make
echo 'PATH=$PATH:/home/bin/x86_64/' >> ~/.bashrc
source ~/.bashrc
2.安装PASA
wget https://github.com/PASApipeline/PASApipeline/releases/download/pasa-v2.5.1/PASApipeline-v2.4.1.FULL.tar.gz
tar zvxf PASApipeline-v2.4.1.FULL.tar.gz
rm PASApipeline-v2.4.1.FULL.tar.gz && cd PASApipeline-v2.4.1
make -j 8
3.运行PASA pipeline
输入文件:
●基因组序列:genome.fasta
●Trinity组装的转录组序列:transcripts.fasta
●(可选)transcripts.fasta中属于全长cDNA的序列名的集合:FL_accs.txt
cp $PASAHOME/pasa_conf/pasa.alignAssembly.Template.txt alignAssembly.config
vi alignAssembly.config
# database settings
DATABASE=/tmp/database.sqlite #使用SQLite数据库
#若使用MySQL数据库,只指定名称,DATABASE=my_pasa_db
#script validate_alignments_in_db.dbi
validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80
validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80
#script subcluster_builder.dbi
subcluster_builder.dbi:-m=50
如果将DATABASE设为绝对路径(即 /path/database.sqlite),则使用SQLite数据库;若只指定数据库名称(即my_pasa_db),则默认使用 MySQL。
MySQL启用多线程,比SQLite速度快,但配置很麻烦(为PASA配置MySQL的教程:https://github.com/PASApipeline/PASApipeline/wiki/setting-up-pasa-mysql)
运行PASA:
$PASAHOME/Launch_PASA_pipeline.pl -c alignAssembly.config -C -R -g reference.fasta -t trinity.fasta --ALIGNERS blat,gmap --CPU 12
4.报错解决
(1)DBD::SQLite::db do failed: table URL_templates already exists at /path/PASApipeline-v2.5.1/scripts/create_sqlite_cdnaassembly_db.dbi line 62.
解决:rm /tmp/database.sqlite ,删除之前生成的同名数据库文件
(2)依然报错:
Can't exec "gmap":No such file or directory
试过很多方法,包括升级/降级gmap版本,均无效,所以--ALIGNERS选项删减为只有blat
正常运行,结果中的database.sqlite.assemblies.fasta和database.sqlite.pasa_assemblies.gff3用于提取ORF(开放阅读框)
5.从PASA组装中提取ORF
/path/PASApipeline-v2.5.1/scripts/pasa_asmbls_to_training_set.dbi --pasa_transcripts_fasta database.sqlite.assemblies.fasta --pasa_transcripts_gff3 database.sqlite.pasa_assemblies.gff3
生成一系列文件database.sqlite.assemblies.fasta.transdecoder.*
提取ORF生成的文件......transdecoder.cds/pep/gff3/bed: 虽然不在基因组上,但是根据转录本信息,有可能是编码区的结果
......transdecoder.genome.bed/gff3: 对应基因组序列的基因模型,经格式转换后用于基因预测
参考文章:
blat下载与安装 - 简书 (jianshu.com)
PASA的使用 | 陈连福的生信博客 (chenlianfu.com)
解决:fatal error: openssl/ssl.h: No such file or directory_徊忆羽菲-CSDN博客
使用MAKER进行基因注释(高级篇之AUGUSTUS模型训练) - 简书 (jianshu.com)
网友评论