OrthoFinder是一种用于鉴定和比较生物学物种之间的同源基因组学的工具。同源基因是在不同物种之间由共同祖先继承的基因。OrthoFinder旨在帮助研究人员理解基因组学数据中的同源关系,以及这些同源关系在进化和功能上的意义。
以下是OrthoFinder的一些主要功能:
同源基因鉴定:OrthoFinder通过比较多个物种的基因组数据,识别出同源基因,即在不同物种之间具有共同祖先的基因。这些同源基因集合可用于进行物种间的基因组比较和分析。
物种关系树构建:OrthoFinder可以利用同源基因集合来重建物种关系树(phylogenetic tree),这有助于揭示不同物种之间的演化关系。
基因家族分析:OrthoFinder还能够将同源基因分组成不同的基因家族,这些家族代表在进化过程中相互关联的基因集合,有助于理解基因家族的功能和进化历史。
直接同源基因和旁系同源基因的差别:
1. 软件及依赖环境的安装
软件本身的安装十分简单,直接下载解压即可:
wget https://github.com/davidemms/OrthoFinder/releases/download/2.5.5/OrthoFinder.tar.gz
tar xzf OrthoFinder.tar.gz
但该软件的运行需要以下依赖环境:
BLAST+
sudo apt-get install ncbi-blast+
MCL
sudo apt-get install mcl
FastME
sudo cp fastme-2.1.5-linux64 /usr/local/bin/fastme
具体安装见:fastME 安装
DLCpar
tar xzf dlcpar-1.0.tar.gz
cd dlcpar-1.0/
sudo python setup.py install
这几个软件也要都装一下。
2. Running OrthoFinder
运行示例文件:
OrthoFinder-1.0.6/orthofinder -f ExampleDataset
ExampleDataset 中包含不同物种的蛋白序列;
常用命令:
orthofinder -f fasta files directory [-t number of threads]
计算物种树:
orthofinder -f fasta dir -s species tree
或者: orthofinder -ft orthologues results dir -s species tree
增加一个物种样本:
orthofinder -b previous orthofinder directory -f new fasta directory
减少一个物种样本:
修改 SpeciesIDs.txt 中的内容,并运行:
orthofinder -b previous orthofinder directory
OPTIONS:
-t Number of parallel sequence search threads [Default= 16] #并行搜索序列线程数
-a Number of parallel analysis threads [Default = 1] #并行分析线程数
-M Method for gene tree inference.Options 'dendroblast' & 'msa' [Default =dendroblast] #基因树推断方法
-S Sequence search program [Default = blast] ptions: blast,mmseqs,blast_gz, diamond #序列搜索程序
-A MSA program, requires '-Mmsa' [Default = mafft] Options: muscle,mafft #MSA程序
-T Tree inference method, requires '-Mmsa' [Default = fasttree] Options:iqtree,raxml-ng, fasttree, raxml
-s User-specified rooted speciestree #用户指定的根物种树
-I MCL inflation parameter [Default =1.5] #MCL通胀参数
-x Info for outputting results inOrthoXMLformat #Info用于以othoXML格式输出结果
-p Write the temporary pickle files to
-1 Only perform one-way sequencesearch
-n Name to append to the resultsdirectory
-h Print this help text
3. 结果文件解读
3.1 Orthogroups
Orthogroups.csv:这是一个以制表符分隔的文本文件,每一行代表一个同源基因组,即在不同物种中具有同源性的一组基因。每个同源基因组中的基因按照物种进行组织,每个物种对应一列。这种格式方便了在每个同源基因组内跨物种比较基因的存在或缺失情况。
Orthogroups UnassignedGenes.csv:这个文件与Orthogroups.csv具有相同的制表符分隔文本格式。然而,它包含了未分配到任何同源基因组的基因。这些未分配的基因可能代表着独特的基因或者在分析的物种中没有同源基因的基因。
Orthogroups.txt(旧版格式):这个文件包含了与Orthogroups.csv文件描述的同源基因组相同的内容,但使用了OrthoMCL的输出格式。
3.2 Single-copy orthogroups & gene counts
SingleCopyOrthogroups.txt:这个文件包含了每个物种中仅包含一个基因的同源基因组的列表。这种单拷贝同源基因组非常有用,因为它们允许跨物种进行简单的比较。例如,单拷贝同源基因组的序列比对通常用于几乎所有物种树推断方法。
Orthogroups.GeneCount.csv:这个文件提供了每个同源基因组中来自每个物种的基因数量。
3.3 Orthogroup Statistics
Statistics Overall.csv:这是一个以制表符分隔的文本文件,提供了同源基因组分析的一些有用统计数据。这些统计数据可能涉及整个数据集的概要信息,如同源基因组数量、平均基因组大小等。
Statistics PerSpecies.csv:这是一个以制表符分隔的文本文件,提供了与“Statistics Overall.csv”文件中相同的统计数据,但是以每个物种为单位进行列出。这个文件可能包含了每个物种的同源基因组数量、平均基因组大小等信息。
Orthogroups SpeciesOverlaps.csv:这是一个以制表符分隔的文本文件,包含了一个矩阵,显示了每对物种之间共享的同源基因组数量。换句话说,它展示了每对物种之间至少包含一种基因的同源基因组数量。
网友评论