美文网首页生信分析流程微生物信息学
测序了,然后呢(一) | 基因预测

测序了,然后呢(一) | 基因预测

作者: 刘小泽 | 来源:发表于2019-01-14 23:35 被阅读240次

刘小泽写于19.1.14

随着测序技术的不断升级优化,读长越来越长,某些基因组比较小的细菌可以实现从头测到尾,那么为什么我们要获得全基因组信息?它能为我们提供什么帮助呢?
今天先来了解了解基因预测的事情

认知的进化

首先对于生物这个词汇,我们的认知水平是在不断刷新的,从开始的生态学角度了解生物的形态结构、种群群落组成到生物的生理生化过程研究(例如物质代谢、能量流动),有了基因组后,我们就可以从基因组层面上对基因功能进行注释,然后比较不同生物的基因组差异,看看哪些生物的基因组特征值得被研究。总而言之,我们想搞明白我们从哪里来,能到哪里去

基因组层面能分析些啥

这么高大上的词汇背后肯定有大量的分析要点,否则不用这么费时费力去取样、测序。另外,不管使用什么测序手段(Illumina、PacBio、IonTorrent等),最后得到的结果用处都差不多,大体上分为:结构基因组学、功能基因组学、比较基因组学(来自百度百科),感觉这么说还是不太明白。

想想我们做基因组不还是为了更好地去了解这个物种吗?

  • 那么首先,要对这个物种本身达成一定的认知,比如基因组上哪些位置是基因?基因的功能都是哪些?与该物种表现出来的特有的功能相关的基因是哪些?另外除了编码区域,还有哪些区域是非编码RNA?哪些是重复序列?哪些编码比较特殊的基因元件?
  • 除了分析自身,还可以与其他物种比较 ,发现它们之间的差别(包括单碱基水平变化:转换、颠换、插入、缺失;染色体水平变化:倒位、易位、插入、缺失),找到亲缘关系远近
  • 找到基因组上的差异后,可以再和表型信息进行关联分析

举个例子:人贵在有自知之明,那么我们如何做到自知呢?
首先最了解自己的人就是本体啦(包括自己适合做什么,有什么兴趣爱好,对什么领域感兴趣)=》物种本身认知,然后自己可以再和其他人比较(看看哪些地方做的还有所欠缺,哪些地方值得发扬)=》其他物种比较。明白差异后,我们可以有的放矢,去寻找和自己爱好相关的工作=》差异与表型关联

基因预测

一般有两种方法:

  • 和已知近缘物种基因集进行同源序列比对,筛选出同源比对区域,作为基因(就是利用已知的信息去预测未知)
  • 从头预测:利用软件对物种的基因组直接进行预测(如果分析的序列有明显的特征,如:基因的编码区CDS与开放阅读框ORF、核糖体RNA的保守域、转运RNA的倒三叶草结构,就可以用软件识别结构并预测)

两种方法比较

从头预测:不需要同源参考基因序列,直接可以进行预测,适用于新发现的物种(因为没有足够的已知信息,因此需要先构建训练集【训练集:软件先对基因组的特征做一个调查了解】)

序列比对:找的基因是已知发表过的,结果更加准确,但是毕竟是近缘物种,不可能序列区域一致,因此可能同源区不含有某个基因或者有一段非同源区域恰好含有特征基因,这样就会漏掉一些

开放阅读框(Open reading frame,ORF)

从5'端开始翻译的其实密码子(ATG)到终止密码子(TTA、TAG、TGA)的蛋白编码序列。预测之前我们是不知道DNA双链中的哪一条链是编码链,也不清楚准确的翻译起始位置,但是知道的是:正负两条链每条都有三种可能的ORF,两条链共6种。于是我们就是利用这6种可能的ORF找到一个正确的,然后根据这个ORF得到氨基酸序列,最后预测出来蛋白产物

补充:不是所有的ORF都叫CDS

CDS,是编码一段蛋白产物的序列;ORF是理论上的氨基酸编码区;CDS一定属于ORF,当然可能包括许多个ORF,但是每个ORF不一定都是CDS。
ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件

http://bioinformatics.lofter.com/post/bffd5_243426

原核生物-软件

基于HMM(隐马可夫模型)glimmer3:https://ccb.jhu.edu/software/glimmer/

Prodical:https://github.com/hyattpd/Prodigal

GeneMark:http://exon.gatech.edu/GeneMark/

相对简单,用自身的基因组作训练集即可

根据不同的物种,选择适合的密码子表
https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi

真核生物-软件

复杂的地方在于:ORF不仅包含编码蛋白的外显子(exon)还有内含子(intron),内含子将ORF分割成许多个小片段,导致ORF的长度变化范围很大。但是, 真核生物的外显子与内含子连接基本满足GT-AG规律(即:内含子序列的5’端起始的两个核苷酸总是GT,3‘端最后的两个核苷酸总是AG,5'-GT...AG-3'

利用Augustus(http://augustus.gobics.de/) 包括人、大型哺乳动物、植物、鸟类、真菌基因组等

训练集:http://augustus.gobics.de/datasets/

除了基因预测,还可以用于从头预测,加入cDNA和EST序列,辅助提高预测准确度

一般可以选择多个工具进行预测,因为预测是非常关键的一步,会影响到下游基因功能注释部分,发表后别人还会以此来进行研究,因此,对于一个新的基因组,预测错误会产生“蝴蝶效应”


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

相关文章

  • 测序了,然后呢(一) | 基因预测

    刘小泽写于19.1.14随着测序技术的不断升级优化,读长越来越长,某些基因组比较小的细菌可以实现从头测到尾,那么为...

  • 测序了,然后呢(二) | 基因功能注释

    背景 得到一个基因集以后,需要知道基因有哪些功能,参与哪些生物过程,只有理解了基因的功能以后,才能联系起来基因型与...

  • 宏基因组分析概述

    测序数据预处理——质控:Trimmomatic 测序数据预处理——质控统计:FastQC 序列组装与基因预测——拼...

  • 使用bioconda安装常用软件

    批量下载安装: 小工具:比对、cricos图、下载工具: 基因功能分析预测 基因组拼接 测序数据质控

  • 用基因测序可以预测突发心脏死亡

    Predicting sudden cardiac death 1 基因测序可以在没有任何征兆显示的情况下,预测那...

  • 学习小组Day7笔记--Doctorshann

    今天主要学习了基因测序相关知识,对于基因测序有了初步了解。主要包括三代基因测序技术的基本原理以及NGS组学的分类。...

  • 测序基础介绍-NGS方法小结

    1 测序方法分类 2 基因组测序 2.1 全基因组测序 大型全基因组测序对人类、植物或动物基因组等大型基因组(>5...

  • 泛基因组测序

    分成3部分: 首先认识泛基因组测序 然后看看植物领域的泛基因组研究现状 最后解读一个大豆的泛基因组测序项目 认识泛...

  • MelonnPan

    NC | 预测代谢组新工具 MelonnPan使用melonnpan通过扩增子或宏基因组测序数据有效预测微生物群落...

  • 全基因组测序 从头测序(de novo sequencing)

    全基因组测序 全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing...

网友评论

    本文标题:测序了,然后呢(一) | 基因预测

    本文链接:https://www.haomeiwen.com/subject/ffgsdqtx.html