前言
最近在跑一个很大的数据集,大概有3500条以上的基因序列,因为数量太大,跑树有点搞不定,特此来记录一下这个过程
超过3000个基因组iqtree直接跑断
直接跑了iqtree core dump
fasttree >>>> core dump
1、gtdbkt一条龙抽单拷贝
gtdbtk classify_wf --genome_dir share_BC_ref --out_dir ./share_BC_ref_output/ --extension .fa --cpus 56
2、gtdbkt分步跑
Step1: identify
#这步是找出里面的marker gene的
#‘-x’指的是基因序列的拓展名,默认为fna
gtdbtk identify --genome_dir ./your_fna_dir --out_dir ./your_fna_identify_dir --cpus 56 -x fna
Step2: Align
#承接上面的identify的输出文件夹进行比对
gtdbtk align --identify_dir IDENTIFY_DIR --out_dir OUT_DIR
# --skip_trimming就是不剪
gtdbtk align --identify_dir IDENTIFY_DIR --out_dir OUT_DIR --cpus 56 --skip_trimming
参数有这些:
[--skip_gtdb_refs] #
[--taxa_filter TAXA_FILTER] #
[--min_perc_aa MIN_PERC_AA] #
[--custom_msa_filters | --skip_trimming] #
[--cols_per_gene COLS_PER_GENE] #
[--min_consensus MIN_CONSENSUS] #
[--max_consensus MAX_CONSENSUS] #
[--min_perc_taxa MIN_PERC_TAXA] #
[--rnd_seed RND_SEED]#
[--prefix PREFIX] #
[--cpus CPUS] #
[--debug] #
[-h]#
3、iqtree做进化树
-
iqtree
内置的modelfinder会找最佳蛋白质模型
不指定模型
iqtree -s gtdbtk.bac120.user_msa.fasta -m MFP -nt 112 -bb 1000 -redo -mredo
指定模型
iqtree -s gtdbtk.bac120.user_msa.fasta -m LG+I+G -nt 112 -bb 1000 -redo -mredo
4、fasttree单线程命令
Fasttree -gamma -lg gtdbtk.bac120.user_msa.fasta > tested_tree.fa
多线程fasttree命令
这个软件里面并没有指定线程的参数,在MacOS/Linux里面软件提供了一个
FastTreeMP
的命令,它能够自动检测电脑最大的线程数
FastTreeMP -gamma -lg gtdbtk.bac120.user_msa.fasta > tested_tree.fa
更多探索会慢慢修改此篇文章,有兴趣的话,关注留意一下。你们的点赞查阅是我分享的动力
参考
GTDBTk
fasttree
网友评论