美文网首页
2023-03-28系统发育树-基于linux(二)

2023-03-28系统发育树-基于linux(二)

作者: 麦冬花儿 | 来源:发表于2023-03-27 09:40 被阅读0次

软件:

比对:mafft
建树:phyml
可视化:itol

1.下载软件

conda install mafft
conda install phyML

2.利用mafft对蛋白序列进行多序列比对

该软件的基本用法如下

mafft  input > output

input为fasta格式的输入序列文件,output为fasta格式的输出结果文件。mafft 支持核酸和蛋白序列的多序列比对,内置了多种序列比对算法, 可以分为以下3大类别

  1. consistency based methods
  2. iterative refinment methods
  3. progressive methods
    这三种类别的算法在准确度和速度上各有优势,对于运行速度而言,3>2>1;对于准确度而言,1>2>3。
  4. consistency based methods
    此类算法包含了L-INS-i, E-INS-i, G-INS-i 3种算法。
    L-INS-i 用法如下
mafft --localpair --maxiterate 1000 input_file > output_file

E-INS-i 用法如下

mafft --genafpair --maxiterate 1000 input_file > output_file

G-INS-i 用法如下

mafft --globalpair --maxiterate 1000 input_file > output_file
  1. iterative refinment methods

此类算法包含了FFT-NS-i, NW-NS-i 两种算法。

FFT-NS-i 用法如下

mafft --maxiterate 1000 input_file > output_file

NW-NS-i 用法如下

mafft --maxiterate 1000 input_file > output_file
  1. progressive methods

此类算法包含了FFT-NS-1, FFT-NS-2 2种算法。
FFT-NS-1 用法如下

mafft --retree 1 input_file > output_file

FFT-NS-2 用法如下

mafft --retree 2 input_file > output_file

如果在比对时,不知道如何选取合适的算法,可以使用以下设置

mafft --auto input > output

软件会根据输入序列的特征,自动选择合适的算法。

在linux下mafft提供交互式的界面


图片.png

软件会对你进行引导
(1)输入文件的路径,需要标准的fasta格式
(2)输出文件的路径
(3)选择输出文件的格式,输入对应序号按回车即可,支持Clustal、Fasta
(4)选择比对策略,输入对应序号按回车即可,通常选择1


图片.png

(5)附加参数,如果没有,直接按回车即可

rehash # if necessary
mafft sample > test.fftns2 # FFT-NS-2
mafft --maxiterate 100 sample > test.fftnsi # FFT-NS-i
mafft --globalpair sample > test.gins1 # G-INS-1
mafft --globalpair --maxiterate 100 sample > test.ginsi # G-INS-i
mafft --localpair sample > test.lins1 # L-INS-1
mafft --localpair --maxiterate 100 sample > test.linsi # L-INS-i

3.PhyML 建树
PhyML 的输入文件为 phylip 格式。

PhyML -i proteins.phy -d aa -b 1000 -m LG -f m -v e -a e -o tlr
常用参数:
-i seq_file_name
输入文件,phylip 格式的多序列比对结果。
-d data_type default:nt
该参数的值为 nt, aa 或 generic。
-b int
设置 bootstrap 次数。
-m model
设置替代模型。 核酸的模型有: HKY85(默认的), JC69, K80, F81, TN93, GTR ; 氨基酸的模型有:LG (默认的), WAG, JTT, MtREV, Dayhoff, DCMut, RtREV, CpREV, VT, Blosum62, MtMam, HIVw, HIVb 。
-f e,m or fA,fC,fG,fT
设置频率计算的方法。 e 表示使用比对结果中不同氨基酸或碱基出现的频率来计算; m 表示使用最大似然法计算碱基频率,或使用替换模型计算氨基酸频率; fA,fC,fG,fT 则是 4 个浮点数,表示 4 中碱基的频率,仅适合核酸序列。
-v prop_invar
设置不变位点的比例,是一个[0,1]区间的值。或者使用 e 表示程序获得其最大似然估计值。
-a gamma
gamma 分布的参数。此参数值是个正数,或者使用 e 表示程序获得其最大似然估计值。在 ProtTest 软件给出的最优模型中含有 G 时,使用该参数。
-o params
参数优化的选项。t 表示对 tree topology 进行优化; l 表示对 branch length 进行优化; r 表示对 rate parameters 优化。
params=tlr 这表示对 3 者都进行优化。 params=n 表示不进行优化。
  1. PhyML 结果

PhyML 的输出结果为:

proteins.phy_phyml_tree.txt        :    最大似然法构建的进化树
proteins.phy_phyml_boot_stats.txt  :    bootstrap 的统计信息
proteins.phy_phyml_boot_trees.txt  :    bootstrap 树
proteins.phy_phyml_stats.txt       :    程序运行的中的参数和结果统计

5.itol可视化

相关文章

  • Consel教程

    介绍Consel系统发育检测软件的使用教程。 1. 简介 系统发育是一种历史过程,任何基于分子数据集得到的发育树都...

  • 使用MrBayes构建贝叶斯系统发育树

    建树是分子系统发育与进化研究中绕不过去的一道坎,本文就本人实际经验介绍贝叶斯树的实际操作: 基于不同原理的系统发育...

  • GWAS理论 1-3 群体结构与亲缘关系评估

    一. 群体结构评估 1.群体结构 群体结构评估内容构建系统发育树群体结构分析PCA(主成分分析) a.系统发育树 ...

  • 构建系统发育树

    系统发育树的构建 现有的方法 系统发育树构建方法的优劣 link 选择:一般情况下,若有合适的分子进化模型可供选择...

  • 7.1 GWAS:系统进化树——MEGA

    系统发育树 系统发育树是表明被认为具有共同祖先的各物种/材料之间的演化关系树形图,用来描述物种(或材料、序列等)之...

  • 系统发育树

    一文读懂进化树 iTOL:给系统发育树添枝加叶开花! 教你用iTOL轻松绘制高颜值系统进化树 iTOL快速绘制颜值...

  • 嵌入式系统砖家_初识设备树

    ​目录: 一、加载Linux(有无设备树) 二、设备树入门知识 一、加载Linux(有无设备树) 没有设备树的时候...

  • 利用VCF文件构建系统发育树

    导读 本文将介绍三种使用VCF文件,构建系统发育树的方法,包括程序的安装,使用,已及系统发育树的可视化与美化。 1...

  • 数据结构系列0-提纲

    线性列表基于数组、基于链表ArrayList、LinkedList 栈 队列 散列表 树二叉树、搜索二叉树、平衡二...

  • 重测序分析(9)群体进化分析之构建进化树

    1.进化树的概念 系统发育或系统发育树,是物种间、基因间、群体间乃至个体间谱系关系的一种表现形式。Node:分支的...

网友评论

      本文标题:2023-03-28系统发育树-基于linux(二)

      本文链接:https://www.haomeiwen.com/subject/tgaardtx.html