基因注释：PASA生成用于training的转录组文件

作者: 橙子_orange | 来源:发表于2021-12-31 17:11 被阅读0次

1.安装依赖项

1.1 gmap

wget -c http://research-pub.gene.com/gmap/src/gmap-gsnap-2021-12-17.tar.gz
tar zxvf gmap-gsnap-2021-12-17.tar.gz
mkdir gmap && rm gmap-gsnap-2021-12-17.tar.gz && cd gmap-2021-12-17
./configure --prefix=/path/gmap
make && make install
cd .. && rm -r gmap-2021-12-17
echo 'PATH=$PATH:/path/gmap/bin/' >> ~/.bashrc
source ~/.bashrc

1.2 blat

wget https://users.soe.ucsc.edu/~kent/src/blatSrc35.zip
unzip blatSrc35.zip && rm blatSrc35.zip && cd blatSrc
uname -a #查看Linux版本类型，我的电脑是x86_64
export MACHTYPE=x86_64
mkdir -p ~/bin/x86_64
make 
echo 'PATH=$PATH:/home/bin/x86_64/' >> ~/.bashrc
source ~/.bashrc

2.安装PASA

wget https://github.com/PASApipeline/PASApipeline/releases/download/pasa-v2.5.1/PASApipeline-v2.4.1.FULL.tar.gz
tar zvxf PASApipeline-v2.4.1.FULL.tar.gz
rm PASApipeline-v2.4.1.FULL.tar.gz && cd PASApipeline-v2.4.1
make -j 8

3.运行PASA pipeline

输入文件：
●基因组序列：genome.fasta
●Trinity组装的转录组序列：transcripts.fasta
●（可选）transcripts.fasta中属于全长cDNA的序列名的集合：FL_accs.txt

cp $PASAHOME/pasa_conf/pasa.alignAssembly.Template.txt  alignAssembly.config
vi alignAssembly.config
# database settings
DATABASE=/tmp/database.sqlite #使用SQLite数据库
#若使用MySQL数据库，只指定名称，DATABASE=my_pasa_db
#script validate_alignments_in_db.dbi
validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80
validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80
#script subcluster_builder.dbi
subcluster_builder.dbi:-m=50

如果将DATABASE设为绝对路径（即 /path/database.sqlite），则使用SQLite数据库；若只指定数据库名称（即my_pasa_db），则默认使用 MySQL。

MySQL启用多线程，比SQLite速度快，但配置很麻烦（为PASA配置MySQL的教程：https://github.com/PASApipeline/PASApipeline/wiki/setting-up-pasa-mysql）

运行PASA：

$PASAHOME/Launch_PASA_pipeline.pl -c alignAssembly.config -C -R -g reference.fasta  -t trinity.fasta --ALIGNERS blat,gmap --CPU 12

4.报错解决

(1)DBD::SQLite::db do failed: table URL_templates already exists at /path/PASApipeline-v2.5.1/scripts/create_sqlite_cdnaassembly_db.dbi line 62.

解决：rm /tmp/database.sqlite ,删除之前生成的同名数据库文件

(2)依然报错:

Can't exec "gmap":No such file or directory

试过很多方法，包括升级/降级gmap版本，均无效，所以--ALIGNERS选项删减为只有blat

正常运行，结果中的database.sqlite.assemblies.fasta和database.sqlite.pasa_assemblies.gff3用于提取ORF（开放阅读框）

5.从PASA组装中提取ORF

 /path/PASApipeline-v2.5.1/scripts/pasa_asmbls_to_training_set.dbi  --pasa_transcripts_fasta database.sqlite.assemblies.fasta --pasa_transcripts_gff3 database.sqlite.pasa_assemblies.gff3

生成一系列文件database.sqlite.assemblies.fasta.transdecoder.*

提取ORF生成的文件

......transdecoder.cds/pep/gff3/bed: 虽然不在基因组上，但是根据转录本信息，有可能是编码区的结果

......transdecoder.genome.bed/gff3: 对应基因组序列的基因模型，经格式转换后用于基因预测

参考文章：
blat下载与安装 - 简书 (jianshu.com)
PASA的使用 | 陈连福的生信博客 (chenlianfu.com)
解决：fatal error: openssl/ssl.h: No such file or directory_徊忆羽菲-CSDN博客
 使用MAKER进行基因注释(高级篇之AUGUSTUS模型训练） - 简书 (jianshu.com)

网友评论

本文标题：基因注释：PASA生成用于training的转录组文件

本文链接：https://www.haomeiwen.com/subject/ucwgqrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！