Meta基因预测:概念

作者: 周运来就是我 | 来源:发表于2018-01-26 11:36 被阅读55次

    什么是基因预测

    基因的基本结构

    所谓基因预测,简单地讲就是预测编码区(CDS)。

    原核生物与真核生物基因的差别:

    • 真核生物基因有内含子(非连续)
    • 更加丰富的调控信息
    • 可变剪切
    • CpG岛
    • GC等值区
    • 密码子使用偏性

    基本概念

    • CDS是Coding sequence的缩写,是编码蛋白产物的序列,是结构基因组学术语。

    • Open Reading Frame, ORF 开放阅读框是DNA上的一段碱基序列,由于拥有特殊的起始密码子(ATG)和直到可以从该段碱基序列产生合适大小蛋白才出现的终止密码子(TAA,TAG或TGA),该段碱基序列可能编码一个蛋白。

    • CDS必定是一个ORF(开放读码框),但也可能包括很多ORF。反之,每个ORF不一定都是CDS。

    为什么要做基因预测

    • 组装序列的生物学意义

    怎样做基因预测

    基因识别的方法:

    • 最长ORFs法(朴素扫雷)
    • 基于密码子出现的频率(期望与落差)
    • 同源性方法(数据库比对)
    • 神经网络法(训练拟合)
    • 模式识别法(统计量)
    • 动态规划(步步紧逼)

    隐马尔可夫模型(我们用的算法)
    用隐马尔可夫模型建立预测模型
    一文搞懂HMM(隐马尔可夫模型)

      03.Gene_Prediction/lib/gmhmmp   -a  -d -f G -p 1   -m   lib/MetaGeneMark_v1.mod  -o B11.1.mgm B11.1.scaf.500.fa
    
     -a 输出所预测基因的蛋白质序列
     -d 输出所预测基因的核算序列
     -f   [L|G] Output format: [L] LST or [G] GFF2 
     -p  [1|0] Gene overlap are allowed [1] or prohibited [0]
     -m 确定要使用的物种模型
     -o 输出文件名。默认为输入文件名后加上“.lst”的后缀
    

    基因预测流程
    宏基因组分析——基因预测篇
    GeneMark使用教程
    宏基因组ORF预测
    GeneMark

    相关文章

      网友评论

        本文标题:Meta基因预测:概念

        本文链接:https://www.haomeiwen.com/subject/ixhsaxtx.html