线粒体基因组分析

作者: dashan1928 | 来源:发表于2021-08-31 17:44 被阅读0次

人类线粒体(mtDNA)二代测序数据分析的几个坑
线粒体DNA结构和组成
在线作图|小基因组——线粒体基因组圈图
biopython解析genbank文件获取物种分类信息
动物线粒体基因组注释软件MITOS2安装与使用
线粒体组装软件(2) NOVOPlasty
吐血推荐：无解的完成图
NCBI|线粒体基因组数据上传
The alternative reality of plant
用组装出来的线粒体序列call SNP

1. 下载.gb文件

2. mito_information.pl PATH/xx.gb

3.for id in $(ls ./*.fas | sed "s/.fas//"); do base=`basename $id`; echo "muscle -in $id.fas -out $base.trim"; done > muscle.trim.sh

4.比对完后进行trimal -in xx -out xx -strict

5.merge_MTgenes.pl 文件名必须以trim.fas 结尾 (grep -c ">" *; 检查每个基因是否齐全，不齐全的需要删除，不然无法成功merge)

6.raxmlHPC-PTHREADS-AVX2 -f a -x 12345 -p 12345 -# 1000 -m PROTGAMMALGX -s merged_seqs.fasta -n ex -T 20 (ncbi 中下载的gb文件中有的物种可能不为13pcgs，此时raxml会报错，然后应检查哪个pcg不全，然后删除以那个基因结尾的trim.fas文件，然后重新执行merge_MTgenes.pl ，再执行建树命令)

注：从ncbi中下载的gb文件可能基因不全或者基因注释不全，此时两个办法，一，帮助补齐原文件中缺少的基因注释，二，删除这个基因序列。

补齐过程中需要定位什么基因缺少：

缺少的某个基因：grep ">" xx.trim.fas | sed "s/@xx//" >tmp1

齐全的某个基因：grep ">" xx.trim.fas | sed "s/@xx//" >tmp2

比较两个文件找出具体是那个序列缺少：cat tmp1 tmp2 | sort | uniq -u