orthofinder实际使用

作者: 君子一诺 | 来源:发表于2022-04-07 15:07 被阅读0次

下载目标物种的蛋白质组序列

使用哪个蛋白质组版本

OrthoFinder 使用蛋白质编码基因的氨基酸序列。这通常位于物种的文件夹中，称为“注释”。理想的情况是为每个基因使用一个初级/最长的转录变体。这也将大大减少运行时间。通常文件是 gzip 压缩的（以 .gz 结尾），因此需要先解压缩（例如使用命令gunzip Danio_rerio.GRCz11.pep.all.fa.gz：）

Ensembl：http ://ensemblgenomes.org/ ：使用.pep.all.fa文件而不是 .pep.abinitio.fa，因为据我了解，这些是支持更好的基因模型（如果有人请纠正我我在这里错了）。通常，每个基因不只有一个具有代表性的转录本，但我已经编写了 OrthoFinder 附带的脚本来提取每个基因最长的转录本变体，我绝对推荐使用它。

Ensembl 的文件将包含每个基因的许多转录本。如果我们在这些原始文件上运行 OrthoFinder，则需要的时间将比必要时间长 10 倍，并且可能会降低准确性。我们将使用 OrthoFinder 提供的脚本来提取每个基因最长的转录变体，并在这些文件上运行 OrthoFinder：

for f in *fa ; do python ~/orthofinder_tutorial/OrthoFinder/tools/primary_transcript.py $f ; done

缩短文件名也是一个好主意，因为它使结果保持整洁，因为文件名用于指代物种，例如，我缩短为 Homo_sapiens.fa。

Phytozome：https ://phytozome.jgi.doe.gov：使用.protein_primaryTranscriptOnly.fa文件。这个应该就是每个基因使用的一个初级的转录变体，可直接使用，不用提取。

从Phytozome下载.protein_primaryTranscriptOnly.fa文件，放入data文件，然后运行：

orthofinder -f data -M msa -S diamond -T iqtree -t 24 -a 24

网友评论

群体遗传学

本文标题：orthofinder实际使用

本文链接：https://www.haomeiwen.com/subject/gfijsrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

orthofinder实际使用

下载目标物种的蛋白质组序列

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

群体遗传学