我在做基因注释的时候,MAKER最后生成的gff文件里第三列有的显示的是match_part
经搜索https://www.biostars.org/p/455794/后得知,来自 SNAP 的 match / match_part 是 MAKER 尚未处理的纯SNAP预测。MAKER 将根据设置的参数从中制作基因模型。例如,如果 keep_preds 选项设置为 0,则 MAKER 将选择与可用的外部证据(蛋白质/转录比对)一致的基因模型。在这种情况下,如果没有提供任何外在证据,那么 MAKER 将不会选择/创建任何基因模型。
要获得仅包含基因模型的 gff,可以使用:.gff3_merge -d <data store index> -n -g
http://yandell-lab.org/pipermail/maker-devel_yandell-lab.org/2012-December/000464.html
从这里得知,match/match_parts是AED分数小于0.5的模型(AED 衡量注释与支持它的证据的拟合优度。AED 是一个介于 0 和 1 之间的数字,0 表示与现有证据完全一致,1 表示对注释基因模型的支持缺乏/不存在)
或者删除gff文件中不必要的部分:
grep -Pv "\tmatch_part\t" SC.Rad52.gff | grep -Pv "\tprotein_match\t" | grep -Pv "\texpressed_sequence_match\t" | grep -Pv "\tmatch\t" | grep -Pv "\tcontig\t" > polished.gff
网友评论