官方文档:https://github.com/PASApipeline/PASApipeline/wiki/Pasa_installation_instructions
之前尝试过很多的帮助,但都遇到了各种阻力,比如说没有root权限啊,各种环境变量的配置啊,不懂sqlite数据库啊
经过两个月的痛苦调研,最后依托conda完成了pasa主程序的使用
1.pasa环境
conda create -n pasa pasa
conda activate pasa
conda install -y samtools=1.9
conda install -y samtools openssl=1.0
conda自带的pasa环境是有点问题的,经过对报错信息的搜索,修改这两步之后samtool就能正常使用了
2.输入数据
p84k.hq.fasta和poplar_84k_genome_v1.0.fa
转录组和参考基因组 接下来要通过污染数据库来对p84k.hq.fasta纯化
3.配置UniVec数据库
wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec
formatdb -i UniVec -p F
无法使用formatdb ,搜索发现makeblastdb也能达到一样的效果。正在探索参数
makeblastdb -in UniVec -dbtype nucl -input_type fasta -parse_seqids -out UniVec
/PASApipeline.v2.4.1/bin/seqclean transcript.fasta -v /path/to/your/UniVec
可以得到p84k.hq.fasta.clean和p84k.hq.fasta.cln 这几个东西要在同一个文件夹下
4.编辑比对配置文件
cd pasa_conf
cp pasa.alignAssembly.Template.txt alignAssembly.config
vi alignAssembly.config
DATABASE=/tmp/mydb.sqlite #在一个真实的文件夹下写一个虚拟的文件名
validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80
validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80
5.运行主程序
$PASAHOME/Launch_PASA_pipeline.pl -c alignAssembly.config -C -R -g poplar_84k_genome_v1.0.fa -t clustered.hq.fasta.clean -T -u clustered.hq.fasta --ALIGNERS blat --CPU 1
经查,gmap的环境和conda是有冲突的,需要在conda的环境里注释掉gamp
所以我干脆在--ALIGNERS的参数里面只用了blat
这里需要跑一段时间
输出包括mydb.sqlite.assemblies.fasta和mydb.sqlite.valid_blat_alignments.gff3 以及一大堆东西
6.提ORF
/home/caocao/miniconda3/envs/pasa/opt/pasa-2.4.1/scripts/pasa_asmbls_to_training_set.dbi
--pasa_transcripts_fasta mydb.sqlite.assemblies.fasta
--pasa_transcripts_gff3 mydb.sqlite.valid_blat_alignments.gff3
得到的输出数据为fasta.transdecoder.cds,.pep,.gff3,.bed 和 fasta.transdecoder.genome.bed,gff3
genome.bed是一种注释信息的格式,在其中有那些基因的起始坐标和终止坐标。可以一定程度上得知ORF的位置和长度
网友评论