测序了，然后呢（一） | 基因预测

作者: 刘小泽 | 来源:发表于2019-01-14 23:35 被阅读240次

测序了，然后呢（一） | 基因预测
测序了，然后呢（二） | 基因功能注释
宏基因组分析概述
使用bioconda安装常用软件
用基因测序可以预测突发心脏死亡
学习小组Day7笔记--Doctorshann
测序基础介绍-NGS方法小结
泛基因组测序
MelonnPan
全基因组测序从头测序(de novo sequencing)

刘小泽写于19.1.14

随着测序技术的不断升级优化，读长越来越长，某些基因组比较小的细菌可以实现从头测到尾，那么为什么我们要获得全基因组信息？它能为我们提供什么帮助呢？
今天先来了解了解基因预测的事情

认知的进化

首先对于生物这个词汇，我们的认知水平是在不断刷新的，从开始的生态学角度了解生物的形态结构、种群群落组成到生物的生理生化过程研究（例如物质代谢、能量流动），有了基因组后，我们就可以从基因组层面上对基因功能进行注释，然后比较不同生物的基因组差异，看看哪些生物的基因组特征值得被研究。总而言之，我们想搞明白我们从哪里来，能到哪里去。

基因组层面能分析些啥

这么高大上的词汇背后肯定有大量的分析要点，否则不用这么费时费力去取样、测序。另外，不管使用什么测序手段（Illumina、PacBio、IonTorrent等），最后得到的结果用处都差不多，大体上分为：结构基因组学、功能基因组学、比较基因组学（来自百度百科），感觉这么说还是不太明白。

想想我们做基因组不还是为了更好地去了解这个物种吗？

那么首先，要对这个物种本身达成一定的认知，比如基因组上哪些位置是基因？基因的功能都是哪些？与该物种表现出来的特有的功能相关的基因是哪些？另外除了编码区域，还有哪些区域是非编码RNA？哪些是重复序列？哪些编码比较特殊的基因元件？
除了分析自身，还可以与其他物种比较 ，发现它们之间的差别（包括单碱基水平变化：转换、颠换、插入、缺失；染色体水平变化：倒位、易位、插入、缺失），找到亲缘关系远近
找到基因组上的差异后，可以再和表型信息进行关联分析

举个例子：人贵在有自知之明，那么我们如何做到自知呢？
首先最了解自己的人就是本体啦（包括自己适合做什么，有什么兴趣爱好，对什么领域感兴趣）=》物种本身认知，然后自己可以再和其他人比较（看看哪些地方做的还有所欠缺，哪些地方值得发扬）=》其他物种比较。明白差异后，我们可以有的放矢，去寻找和自己爱好相关的工作=》差异与表型关联

基因预测

一般有两种方法：

和已知近缘物种基因集进行同源序列比对，筛选出同源比对区域，作为基因（就是利用已知的信息去预测未知）
从头预测：利用软件对物种的基因组直接进行预测（如果分析的序列有明显的特征，如：基因的编码区CDS与开放阅读框ORF、核糖体RNA的保守域、转运RNA的倒三叶草结构，就可以用软件识别结构并预测）

两种方法比较

从头预测：不需要同源参考基因序列，直接可以进行预测，适用于新发现的物种（因为没有足够的已知信息，因此需要先构建训练集【训练集：软件先对基因组的特征做一个调查了解】）

序列比对：找的基因是已知发表过的，结果更加准确，但是毕竟是近缘物种，不可能序列区域一致，因此可能同源区不含有某个基因或者有一段非同源区域恰好含有特征基因，这样就会漏掉一些

开放阅读框（Open reading frame，ORF）

从5'端开始翻译的其实密码子（ATG）到终止密码子（TTA、TAG、TGA）的蛋白编码序列。预测之前我们是不知道DNA双链中的哪一条链是编码链，也不清楚准确的翻译起始位置，但是知道的是：正负两条链每条都有三种可能的ORF，两条链共6种。于是我们就是利用这6种可能的ORF找到一个正确的，然后根据这个ORF得到氨基酸序列，最后预测出来蛋白产物

补充：不是所有的ORF都叫CDS

CDS，是编码一段蛋白产物的序列；ORF是理论上的氨基酸编码区；CDS一定属于ORF，当然可能包括许多个ORF，但是每个ORF不一定都是CDS。
ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。

http://bioinformatics.lofter.com/post/bffd5_243426

原核生物-软件

基于HMM（隐马可夫模型）glimmer3：https://ccb.jhu.edu/software/glimmer/

Prodical：https://github.com/hyattpd/Prodigal

GeneMark：http://exon.gatech.edu/GeneMark/

相对简单，用自身的基因组作训练集即可

根据不同的物种，选择适合的密码子表
https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi

真核生物-软件

复杂的地方在于：ORF不仅包含编码蛋白的外显子（exon）还有内含子（intron），内含子将ORF分割成许多个小片段，导致ORF的长度变化范围很大。但是， 真核生物的外显子与内含子连接基本满足GT-AG规律（即：内含子序列的5’端起始的两个核苷酸总是GT，3‘端最后的两个核苷酸总是AG，5'-GT...AG-3' ）

利用Augustus（http://augustus.gobics.de/）包括人、大型哺乳动物、植物、鸟类、真菌基因组等

训练集：http://augustus.gobics.de/datasets/

除了基因预测，还可以用于从头预测，加入cDNA和EST序列，辅助提高预测准确度