1. 下载.gb文件
2. mito_information.pl PATH/xx.gb
3.for id in $(ls ./*.fas | sed "s/.fas//"); do base=`basename $id`; echo "muscle -in $id.fas -out $base.trim"; done > muscle.trim.sh
4.比对完后进行trimal -in xx -out xx -strict
5.merge_MTgenes.pl 文件名必须以trim.fas 结尾 (grep -c ">" *; 检查每个基因是否齐全,不齐全的需要删除,不然无法成功merge)
6.raxmlHPC-PTHREADS-AVX2 -f a -x 12345 -p 12345 -# 1000 -m PROTGAMMALGX -s merged_seqs.fasta -n ex -T 20 (ncbi 中下载的gb文件中有的物种可能不为13pcgs,此时raxml会报错,然后应检查哪个pcg不全,然后删除以那个基因结尾的trim.fas文件,然后重新执行merge_MTgenes.pl ,再执行建树命令)
注:从ncbi中下载的gb文件可能基因不全或者基因注释不全,此时两个办法,一,帮助补齐原文件中缺少的基因注释,二,删除这个基因序列。
补齐过程中需要定位什么基因缺少:
缺少的某个基因:grep ">" xx.trim.fas | sed "s/@xx//" >tmp1
齐全的某个基因:grep ">" xx.trim.fas | sed "s/@xx//" >tmp2
比较两个文件找出具体是那个序列缺少:cat tmp1 tmp2 | sort | uniq -u
网友评论