orthofinder2-sinple Chinese

作者: 天骏 | 来源:发表于2018-11-21 20:12 被阅读33次

    个人理解更新:
    orthofinder 提供了dendroblast或msa的方式去构建基因树,可以使用-M开启
    -M msa -A muscle -T iqtree ,默认aligen用MAFFT建树用fastree
    使用多序列比对的方式更耗费计算资源但是树更准确
    如果在算完dendroblast之后后悔了,又想用多序列比对来建树,那么可以使用作者提供的
    -b <dir> Start OrthoFinder from pre-computed BLAST results in <dir>
    -fg <dir> Start OrthoFinder from pre-computed orthogroups in <dir>
    -ft <dir> Start OrthoFinder from pre-computed gene trees in <dir>
    这些参数从你选择的点重新开始

    安装 OrthoFinder (可以使用conda install)

    1. github下载最新的版本: https://github.com/davidemms/OrthoFinder/releases

    2. In a terminal, 'cd' to where you downloaded the package

    3. 解压文件: tar xzf OrthoFinder-2.2.7.tar.gz

    4. 安装依赖的其他软件: MCL, FastME and DIAMOND (see below)

    5. 测试OrthoFinder: OrthoFinder-2.2.7/orthofinder -h. OrthoFinder 会反馈help文档;

    运行 OrthoFinder

    OrthoFinder-2.2.7/orthofinder -f ExampleDataset -S diamond

    输出文件: Orthogroups Directory

    1. Orthogroups.csv 是制表符格式的文件. 每一行包含了不同同源基因族的基因名称.这些基因排列在以物种为名的列下。

    2. Orthogroups_UnassignedGenes.csv 是制表符文件同Orthogroups.csv 文件一样的格式,但是包含了没有聚类到任何一个簇的基因。

    3. Orthogroups.txt (传统格式与orthomcl输出的格式一样) 格式与 Orthogroups.csv 文件一样。

    4. Orthogroups.GeneCount.csv 制表符文件包含了每个物种下每个同源基因簇中包含的基因数。

    同源基因可以呈现1对1,也可以是1对多和多对多依赖于基因复制事件。 (参考 "Orthogroups, Orthologues & Paralogues" 章节). 每个同源基因对应的同源簇都有一个文件包含了这些关联信息。Orthologs目录下包含了子目录中每个物种包含一个文件记载了 每个两两物种间对比的列表,并列出了同源基因。

    输出文件: Gene Trees Directory

    1. 每个同源基因簇推断出的演化树

    输出文件: Resolved Gene Trees Directory

    1. 使用OrthoFinder duplication-loss模型修正的每个同源基因簇的演化树。

    输出文件: Species Tree Directory

    1. Species_Tree_rooted.csv A STAG 物种树 inferred from all orthogroups containing STAG support values at internal nodes and rooted using STRIDE.

    2. Species_Tree_rooted_node_labels.csv 同上一样的树包含了推断基因复制的数据

    输出文件: Comparative Genomics Statistics Directory

    1. Orthogroups_SpeicesOverlaps.csv 制表符文件,包含了每个物种共有的同源基因簇,以数据矩阵的形式

    2. SingleCopyOrthogroups.txt 文本文件。只包含了单拷贝同源基因簇的信息

    3. Statistics_Overall.csv 分隔符文件,包含了同源基因簇大小的统计数据以及基因在同源基因簇中的比例。

    4. Statistics_PerSpecies.csv 制表符文件,与Statistics_Overall.csv 文件同样记载了这些数据信息,但是每个物种单独统计的。

    文件 'Statistics_Overall.csv' 和 'Statistics_PerSpecies.csv' 中的表头很容易看懂,有一些解释如下:

    • Species-specific orthogroup: 只包含于一个物种出现的基因簇

    • G50: 所有不同大小的基因簇中,当大小达到最大的百分之50大小的基因簇中所包含的基因数目

    • O50: 所有不同大小的基因簇中,当大小达到最大的百分之50大小的基因簇中所包含的最小基因数目

    • Single-copy orthogroup: 单拷贝基因簇,用来构建物种进化树以及其他分析.

    • Unassigned gene: 没有被列入任何同源基因簇的基因.

    输出文件: WorkingDirectory

    包含了运行过程中的所有信息,可以忽略

    Additional Information

    添加格外的物种:

    OrthoFinder 允许你不需要重新blast计算的情况下添加额外的物种:

    • orthofinder -b previous_orthofinder_directory -f new_fasta_directory

    通过添加新的序列目录 'new_fasta_directory' 到已完成的目录中, 再次使用所有之前的BLAST results, 只再次运行新添加的序列 BLAST searches 然后重新计算同源簇. 'previous_orthofinder_directory' 这个目录是 OrthoFinder 'WorkingDirectory/' 包含了'SpeciesIDs.txt'.

    移除已经计算的物种:

    OrthoFinder 允许你移除掉之前计算过的物种。 在之前计算的目录 'WorkingDirectory/' 中有个文件 'SpeciesIDs.txt'. 使用 '#' 符号注释掉对应物种的character然后运行OrthoFinder:

    • orthofinder -b previous_orthofinder_directory

    'previous_orthofinder_directory' 目录在 OrthoFinder 'WorkingDirectory/' 下包含了 'SpeciesIDs.txt'.

    同时添加删除目录中的物种

    上述两种改变物种数目的方式可以合并,使用方法如下:

    • orthofinder -b previous_orthofinder_directory -f new_fasta_directory

    单独运行 BLAST Searches (-op option)

    '-op' 选项可以提供 OrthoFinder 需要的选项并打印需要运行的BLAST命令集

    • orthofinder -f fasta_files_directory -op

    当你需要自己控制 BLAST searches 的时候这个命令很有用。比如,你可能需要分散在不同的计算机中计算. 当BLAST 计算完成后可以使用 '-b' 命令来计算同源簇,详细见"Using Pre-Computed BLAST Results"章节.

    测试:

    test目录下运行 'test_orthofinder.py' 检查软件是否正常运行

    git 原版说明地址:https://github.com/davidemms/OrthoFinder

    相关文章

      网友评论

        本文标题:orthofinder2-sinple Chinese

        本文链接:https://www.haomeiwen.com/subject/cclhqqtx.html