什么是基因预测
基因的基本结构所谓基因预测,简单地讲就是预测编码区(CDS)。
原核生物与真核生物基因的差别:
- 真核生物基因有内含子(非连续)
- 更加丰富的调控信息
- 可变剪切
- CpG岛
- GC等值区
- 密码子使用偏性
基本概念
-
CDS是Coding sequence的缩写,是编码蛋白产物的序列,是结构基因组学术语。
-
Open Reading Frame, ORF 开放阅读框是DNA上的一段碱基序列,由于拥有特殊的起始密码子(ATG)和直到可以从该段碱基序列产生合适大小蛋白才出现的终止密码子(TAA,TAG或TGA),该段碱基序列可能编码一个蛋白。
- CDS必定是一个ORF(开放读码框),但也可能包括很多ORF。反之,每个ORF不一定都是CDS。
为什么要做基因预测
- 组装序列的生物学意义
怎样做基因预测
基因识别的方法:
- 最长ORFs法(朴素扫雷)
- 基于密码子出现的频率(期望与落差)
- 同源性方法(数据库比对)
- 神经网络法(训练拟合)
- 模式识别法(统计量)
- 动态规划(步步紧逼)
隐马尔可夫模型(我们用的算法)
用隐马尔可夫模型建立预测模型
一文搞懂HMM(隐马尔可夫模型)
03.Gene_Prediction/lib/gmhmmp -a -d -f G -p 1 -m lib/MetaGeneMark_v1.mod -o B11.1.mgm B11.1.scaf.500.fa
-a 输出所预测基因的蛋白质序列
-d 输出所预测基因的核算序列
-f [L|G] Output format: [L] LST or [G] GFF2
-p [1|0] Gene overlap are allowed [1] or prohibited [0]
-m 确定要使用的物种模型
-o 输出文件名。默认为输入文件名后加上“.lst”的后缀
网友评论