本篇文章介绍的序列分析主要是针对二代测序数据。
当前的序列分析主要包括以下方面:序列预处理、序列拼接、短序列映射和变异检测、序列比对和相似性搜索、分子进化分析和比较基因组学。
DNA序列预处理
1)测序得到的DNA序列除了包括目的基因的短片段外,还常常包括引物、接头或者载体等其他片段,必须通过计算机去除这些干扰片段,这个过程称为去污染。
2)对于获得的目的基因片段,需要去除其中质量较低的部分,以得到质量高的干净数据(clean data)
序列拼接
二代测序得到的短DNA片段是随机的,需要将其正确拼接才能得到目的基因组或转录组,拼接后得到的序列叫做一致性序列(consensus sequences),它只代表一种参考序列并非一定与目的基因完全一致。
短序列映射和变异检测
这里先解释一下什么叫重测序:基因组重测序就是对已知基因组序列的物种进行不同个体或压型的基因组测序,一方面可以对个体或群体进行各种差异性分析或进化分析;另一方面可以对已测基因组进行重注释,纠正或更新已有的注释信息,发现可能遗漏的潜在基因。
短序列映射是指对已有基因组或转录组作为参考序列的重测序项目中,将测序后得到的短序列(一般不超过500个bp)映射到参考序列,这个过程也叫作对其(alignment)。根据映射结果,可以在全基因组水平上检测基因序列变异:单核苷酸多态性(SNP)、拷贝数变异(CNV)以及插入和缺失(insertion and deletion)。
序列比对和相似性搜索
序列比对又称序列对齐,就是将两条或多条序列排列在一起,比较序列之间的相似性。序列比对的基础是进化学说:若果两条序列之间具有足够的相似性,就推测这两条序列可能由共同的祖先演化而来;此外,相似序列之间的结构和功能往往也有一定相似性。序列比对根据比对序列数量,分为双重比对和多重比对,双重比对的一个重要应用是根据已知基因的结构、功能等信息推断与其相似基因的同类信息。
在实际工作中,双重比对最常见的用途是用于数据库相似性搜索。具体来说就是将查询序列(未注释的)和数据库中的备选序列(已有功能等注释信息)作比对,根据设定的相似性阈值,从数据库中亿万条序列中挑选出来符合要求的序列,这些序列可以用来提供查询序列的一些未知信息(如功能、结构等),还可用于多重比对。
多重比对的对象是一组假定具有进化关系的序列,这组序列一般可以通过上面提到的数据库相似性搜索的来。多重比对经常用来研究序列间的进化关系,构建进化树;序列间的保守性。
网友评论