美文网首页基因组基因组基因家族
基因家族分析 | 同源基因家族聚类(orthofinder)

基因家族分析 | 同源基因家族聚类(orthofinder)

作者: pomela | 来源:发表于2019-05-05 21:21 被阅读3次

    1.软件安装:

    #利用miniconda安装
    conda create -n orthofinder orthofinder=2.2.7
    

    2.运行示例数据:

    source /data1/spider/miniconda3/bin/activate
    conda activate orthofinder
    #用miniconda安装的orthofinder找不到示例文件,所以又下载二进制的orthofinder
    cd  /data1/spider/liupiao/biosoft/OrthoFinder-master/orthofinder
    #运行orthofinder
    orthofinder -f ExampleDataset/ -S mmseqs
    
    #参数:
    -f  指定输入的文件夹
    -S 指定序列搜索程序(可选择blast,mmseqs,blast_gz,diamond)
    orthofinder默认用mafft进行多序列联配,用fasttree进行进化树推断。
    -M msa  根据多序列联配(MSA)的结果按照ML法构建系统发育树
    -t  指定序列搜索时的线程数
    -a  指定序列搜索后分析的线程数
    

    3.结果文件:

    运行结束后会在ExampleDataset出现一个结果文件夹,打开可以看到如下输出结果:
    Orthogroups.csv       用制表符分隔的文件,每一行是直系同源基因组对应的基因    
    Orthogroups.txt       类似于Orthogroups.csv,只不过是OrhtoMCL的输出格式
    Orthogroups_UnassignedGenes.csv    格式同Orthogroups.csv,只不过是物种特异性的基因
    Orthogroups.GeneCount.csv          格式同Orthogroups.csv, 只不过不再是基因名信息,而是以基因数  
    
    比较基因组学的相关结果文件,该文件夹下的结果有:Orthogroups_SpeciesOverlaps.csv: 不同物种间的同源基因的交集
    SingleCopyOrthogroups.txt: 单基因拷贝组的编号
    Statistics_Overall.csv:总体统计信息
    Statistics_PerSpecies.csv:分物种统计信息
    
    Orthologues_May05 是直系同源相关文件,分析每个直系同源基因组里的直系同源基因之间关系(May5是日期),该文件夹下的结果有:
    * Gene_Trees         每个直系同源基因基因组里的基因树
    * Recon_Gene_Trees   使用OrthoFinder duplication-loss coalescent 模型进行发育树推断
    * Potential_Rooted_Species_Trees      可能的有根物种树
    * SpeciesTree_rooted.txt              从所有包含STAG支持的直系同源组推断的STAG物种树
    * SpeciesTree_rooted_node_labels.txt  同上,只不过多了一个标签信息,用于解释基因重复数据。
    

    4.软件细节:

    OrthoFinder提供了config.json可以调整不同软件的参数。
    利用conda安装,config.json的位置在/data1/spider/miniconda3/envs/orthofinder/bin
    

    5.一些重要概念:

    * Species-specific orthogroup: 一个仅来源于一个物种的直系同源组。
    * Single-copy orthogroup: 在直系同源组中,每个物种里面只有一个基因。我们会用单拷贝直系同源组里的基因推断物种树以及其他数据分析。
    * Unassigned gene: 无法和其他基因进行聚类的基因。
    * G50和O50,指的是当直系同源组按照基因数从大到小进行排列,然后累加,当加入某个组后,累计基因数大于50%的总基因数,那么所需要的直系同源组的数目就是O50,该组的基因树就是G50。
    

    参考:

    01 「基因组学」使用OrthoFinder进行直系同源基因分析
    02 OrthoFinder2—同源蛋白家族聚类

    相关文章

      网友评论

        本文标题:基因家族分析 | 同源基因家族聚类(orthofinder)

        本文链接:https://www.haomeiwen.com/subject/oajkoqtx.html