1.软件安装:
#利用miniconda安装
conda create -n orthofinder orthofinder=2.2.7
2.运行示例数据:
source /data1/spider/miniconda3/bin/activate
conda activate orthofinder
#用miniconda安装的orthofinder找不到示例文件,所以又下载二进制的orthofinder
cd /data1/spider/liupiao/biosoft/OrthoFinder-master/orthofinder
#运行orthofinder
orthofinder -f ExampleDataset/ -S mmseqs
#参数:
-f 指定输入的文件夹
-S 指定序列搜索程序(可选择blast,mmseqs,blast_gz,diamond)
orthofinder默认用mafft进行多序列联配,用fasttree进行进化树推断。
-M msa 根据多序列联配(MSA)的结果按照ML法构建系统发育树
-t 指定序列搜索时的线程数
-a 指定序列搜索后分析的线程数
3.结果文件:
运行结束后会在ExampleDataset出现一个结果文件夹,打开可以看到如下输出结果:
Orthogroups.csv 用制表符分隔的文件,每一行是直系同源基因组对应的基因
Orthogroups.txt 类似于Orthogroups.csv,只不过是OrhtoMCL的输出格式
Orthogroups_UnassignedGenes.csv 格式同Orthogroups.csv,只不过是物种特异性的基因
Orthogroups.GeneCount.csv 格式同Orthogroups.csv, 只不过不再是基因名信息,而是以基因数
比较基因组学的相关结果文件,该文件夹下的结果有:Orthogroups_SpeciesOverlaps.csv: 不同物种间的同源基因的交集
SingleCopyOrthogroups.txt: 单基因拷贝组的编号
Statistics_Overall.csv:总体统计信息
Statistics_PerSpecies.csv:分物种统计信息
Orthologues_May05 是直系同源相关文件,分析每个直系同源基因组里的直系同源基因之间关系(May5是日期),该文件夹下的结果有:
* Gene_Trees 每个直系同源基因基因组里的基因树
* Recon_Gene_Trees 使用OrthoFinder duplication-loss coalescent 模型进行发育树推断
* Potential_Rooted_Species_Trees 可能的有根物种树
* SpeciesTree_rooted.txt 从所有包含STAG支持的直系同源组推断的STAG物种树
* SpeciesTree_rooted_node_labels.txt 同上,只不过多了一个标签信息,用于解释基因重复数据。
4.软件细节:
OrthoFinder提供了config.json可以调整不同软件的参数。
利用conda安装,config.json的位置在/data1/spider/miniconda3/envs/orthofinder/bin
5.一些重要概念:
* Species-specific orthogroup: 一个仅来源于一个物种的直系同源组。
* Single-copy orthogroup: 在直系同源组中,每个物种里面只有一个基因。我们会用单拷贝直系同源组里的基因推断物种树以及其他数据分析。
* Unassigned gene: 无法和其他基因进行聚类的基因。
* G50和O50,指的是当直系同源组按照基因数从大到小进行排列,然后累加,当加入某个组后,累计基因数大于50%的总基因数,那么所需要的直系同源组的数目就是O50,该组的基因树就是G50。
参考:
网友评论