基因组组装第一步就是判断基因组组装结果是否可以进行基因注释,
有三个指标:
1.N50
(将所有基因按长度由长道短排列,,从第一条长度开始累加,一直到第N条加完后其长度为全部基因组长度的百分之五十以上,那么这第N条序列叫做N50)也就是说N50序列是某一条序列的长度,,
image.png
当N50最少达到基因组长度中位数以上则证明组装结果可以接着拿去 研究
image.png
image.png
2.gap
image.png测序由于物种本身限制,,有些测不到,高重复高杂合(组装不出来)此处用N去填补
image.png
此时用gap的个数去查看组装的结果
3.coverage
基因组的覆盖度:这个基因组本身多大,,我们装出来多大,通过流式细胞仪方式估计基因组大小,通过组装出来的值进行对比,达到90%-95%
image.png
基因的覆盖度,基因被完整组装出来的覆盖度
如何评估基因的覆盖度---软件CEGMA(收集了普遍存在于真核生物中单拷贝的基因,,)
比到了,就说明我们找到了。
what is genome annatition
1.找到我们感兴趣的结构原件------结构注释
2.找到原件后发掘原件功能--------功能注释
how to annotation a genome
1、De novo(Ab initio):从头预测:根据本身原件的功能特征去识别它
2、基于同源性的序列相似性:序列相似、功能相似
网友评论