美文网首页生信工具机器学习算法单核苷酸多态性(SNP)
IQ-TREE的使用 - 超快速用极大似然法构建进化树

IQ-TREE的使用 - 超快速用极大似然法构建进化树

作者: 生信石头 | 来源:发表于2019-09-27 22:29 被阅读0次

    写在前面

    我知道IQ-tree已经有很长一段时间了。不过我一直并没有使用它。主要原因是,常用的快速构建ML树的软件是FastTree,如果要求准确,我会在服务器上使用RaxML。所以是用不到。不过,使用IQ-tree可能最大的好处是,他支持直接估算替代模型。确实会省事许多。由于最近相对有多一点时间,那么我就查阅并记录一下IQ-tree的文档。

    程序下载位置

    IQ-tree官方现在似乎只提供多线程版本....

    http://www.iqtree.org/#download
    

    如果你赶时间,那么直接翻到最后

    简单构建进化树

    iqtree -s example.phy
    

    其中-s参数跟的是输入的多序列比对结果。运行这个命令会产生两个输出文件
    example.phy.iqtree记录相对具体的进化树构建信息。
    example.phy.treefile记录构建成的进化树的newick文本,这个应该是最重要的输出文件
    example.phy.log主要用于给软件作者debug。

    作者在文档里提到

    从版本1.5.4开始,默认自动估算最优替代模型

    这是一个非常机智的操作....

    IQ-tree运行过程会保存每一步成功运行的结果,或者说他是运行中断并从断点重新开始的。这个对于大数据集是有很大好处的。不过有时候,我们就是想从头开始,那么需要加上参数-redo

    iqtree -s example.phy -redo
    

    默认情况下IQ-tree的输出文件名字以输入的alignment文件为前缀。我们可以对其进行修改,使用-pre参数

    iqtree -s example.phy -pre myprefix
    

    不过事实上,我觉得完全没必要。除非你要不断的调整建树的参数。

    选择合适的替代模型

    IQ-tree支持多种不同输入数据的替代模型选择,包括

    • DNA
    • protein
    • codon
    • binary
    • morphological

    通过设置参数-m MFP使其自动测试并选择最优替代模型

    iqtree -s example.phy -m MFP
    

    这个参数其实已经可以不用给了,上述说过,会默认执行。
    一旦执行最优替代模型的预测,那么就会多输出一个文件,
    example.phy.model记录了所有模型的似然信息。
    事实上,最优替代模型的信息会记录 example.phy.iqtree中。如果是完全相同的多序列比对结果,那么最优替代模型也是相同的。如果并没有改变过,那么完全可以指定替代模型,比如已知最优替代模型为TIM2+I+G。那么可以执行下述命令

    iqtree -s example.phy -m TIM2+I+G
    

    当然,有时候,你只是想看看最优替代模型是啥,而不想构建进化树,毕竟后者相对耗时。那么可以执行

    iqtree -s example.phy -m MF
    

    如果计算资源允许,那么最好的方式是增加参数-mtree,这样会检查所有可用模型

    iqtree -s example.phy -m MF -mtree
    

    如果你的输入数据是SNP数据,那么需要加上+ASC

    iqtree -s SNP_data.phy -m MFP+ASC
    

    当然,基于传言和个人经验,在SNP数据上,似乎NJ法的表现就是由于ML法。

    使用超快bootstrap法评估分支支持度

    真实的进化信息只有一个,而我们总是拿着有限的序列信息,希望去获得他。能否获得他,是一个问题。而我们使用的序列信息是否能真实且稳定地反应一个进化信息,那么是另外一个事情。bootstrap法常用的,尤其是ML法构建进化树上,分支可靠性检验方法。但是这个计算逻辑最大的问题在于,抽样重新跑,抽样再重新跑,不断重复,直到收敛或者是到指定的比如1000次。计算量大,耗时长。IQ-tree的作者团队在前述提出了一个快速的BS方法,最后整合到IQ-tree中。使用的方式是

    iqtree -s example.phy -m TIM2+I+G -bb 1000
    

    注意到:

    1. -m TIM2+I+G 是因为已经指定了替代模型
    2. -bb 1000 指定了要用快速BS法做1000次

    在这些参数下,输出文件example.phy.iqtree中会增加一个MAXIMUM LIKELIHOOD TREE部分,其中记录了具体BS结果。对应的newick文本则可以在example.phy.treefile中找到。
    此外,会增加三个输出文件

    1. example.phy.contree记录了一致树,我个人认为这个用处不到,事实上,一致树我觉得主要是好看....
    2. example.phy.splits....
    3. example.phy.splits.nex... 与第2个文件具体信息类同

    作者提醒到

    快速BS法的具体解读与常规的BS法有不同,用户需要知晓。

    我个人事实上在很早的时候,其实试过IQ-tree,但是两三套数据下来,自认为其表现不如RaxML,于是没有使用。作者在文档中提到,模型冲突的情况下,快速BS会高估BS值,推荐加上参数-bnni。于是,命令是

    iqtree -s example.phy -m TIM2+I+G -bb 1000 -bnni
    

    当然,作者仍然提供正常的BS参数,也就是不要-bb,而只用-b。或许我们不赶时间的情况下,可以使用

    iqtree -s example.phy -m TIM2+I+G -b 100
    

    此外,IQ-tree还支持其他的支持度估算方法
    SH-like

    iqtree -s example.phy -m TIM2+I+G -alrt 1000
    

    你甚至可以同时进行两种分支支持度的计算,

    iqtree -s example.phy -m TIM2+I+G -alrt 1000 -bb 1000
    

    嗯,作为一个基本不怎么做进化分析的,我似乎觉得有BS就足够了,毕竟这个似乎才是最多人care的。

    使用多线程

    Emm... 我以为iqtree本身是直接支持多线程,但是似乎从文档来看,是需要另外的一个iqtree版本,iqtree-omp

    iqtree -omp -s example.phy -m TIM2+I+G -nt 2
    

    注意到,只有在长的比对结果下,使用多线程才会更有效。最好的方式是让IQtree自行定夺

    iqtree -omp -s example.phy -m TIM2+I+G -nt AUTO
    

    不过目前应该是官方就有编译的支持多线程的。

    写在后面

    总结,使用IQ-tree构建进化树的一步法,可能是

    iqtree -s example.phy -m MFP -bb 1000  -bnni  -redo
    

    最后查看结果文件example.phy.treefile
    如果你担心快速BS效果不好,那么考虑使用

    iqtree -s example.phy -m MFP -b 1000  -redo
    

    如果你的序列足够长,那么文档建议增加-cmax,默认是10,这主要是计算资源的问题。

    iqtree -s example.phy -m MFP -bb 1000  -bnni -cmax 15  -redo
    

    当然,很多时候是需要增加多线程支持参数,如下

    iqtree -s example.phy -m MFP -bb 1000  -bnni  -nt AUTO  -cmax 15  -redo 
    # 或者 
    iqtree -s example.phy -m MFP -b 1000  -nt AUTO  -cmax 15  -redo 
    

    相关文章

      网友评论

        本文标题:IQ-TREE的使用 - 超快速用极大似然法构建进化树

        本文链接:https://www.haomeiwen.com/subject/gziauctx.html