下载目标物种的蛋白质组序列
使用哪个蛋白质组版本
OrthoFinder 使用蛋白质编码基因的氨基酸序列。这通常位于物种的文件夹中,称为“注释”。理想的情况是为每个基因使用一个初级/最长的转录变体。这也将大大减少运行时间。通常文件是 gzip 压缩的(以 .gz 结尾),因此需要先解压缩(例如使用命令gunzip Danio_rerio.GRCz11.pep.all.fa.gz:)
Ensembl:http ://ensemblgenomes.org/ :使用.pep.all.fa文件而不是 .pep.abinitio.fa,因为据我了解,这些是支持更好的基因模型(如果有人请纠正我我在这里错了)。通常,每个基因不只有一个具有代表性的转录本,但我已经编写了 OrthoFinder 附带的脚本来提取每个基因最长的转录本变体,我绝对推荐使用它。
Ensembl 的文件将包含每个基因的许多转录本。如果我们在这些原始文件上运行 OrthoFinder,则需要的时间将比必要时间长 10 倍,并且可能会降低准确性。我们将使用 OrthoFinder 提供的脚本来提取每个基因最长的转录变体,并在这些文件上运行 OrthoFinder:
for f in *fa ; do python ~/orthofinder_tutorial/OrthoFinder/tools/primary_transcript.py $f ; done
缩短文件名也是一个好主意,因为它使结果保持整洁,因为文件名用于指代物种,例如,我缩短为 Homo_sapiens.fa。
Phytozome:https ://phytozome.jgi.doe.gov:使用.protein_primaryTranscriptOnly.fa文件。这个应该就是每个基因使用的一个初级的转录变体,可直接使用,不用提取。
从Phytozome下载.protein_primaryTranscriptOnly.fa文件,放入data文件,然后运行:
orthofinder -f data -M msa -S diamond -T iqtree -t 24 -a 24
网友评论