变异检测
指通过高通量测序技术对某一物种个体或群体的全部基因组进行测序及差异分析,获得大量的遗传变异信息 ,如单核苷酸多态性位点(SNP,Single Nucleotide Polymorphism),插入缺失位点(InDel,Insertion/Deletion)及结构变异位点(SV,Structure Variation),拷贝数变异(CNV,Copy Number Variations)等分子标记。为后续的功能基因挖掘提供最基本和最全面的数据基础快速精准高效的解析基因组之间的差异,对全基因组的每一个碱基进行分析,获得最广泛的分子标记。
单核苷酸多态性(Single nucleotide polymorphism,SNP):主要是指在基因组水平上,由单个核苷酸的变异所引起的DNA序列多态性,包括单个碱基的转换、颠换等。转换:同类碱基的置换,即碱基置换中一个嘌呤被另一个嘌呤,或者是一个嘧啶被另一个嘧啶替代,如A-G、T-C。颠换:不同类碱基的置换,即碱基置换中嘌呤与嘧啶之间的替代,如A-T、A-C、C-G、G-T。转换发生的频率高于颠换。
SNP示例插入缺失长度多态性(Insertion-deletion):是指基因组中小片段(1~50bp)的插入(insertion)和缺失(deletion)序列。
InDel示例结构变异(Structural Variation):是指基因组水平上大片段(≥50bp)的插入、缺失、倒位、易位等,可基于Pair-end reads 比对到参考基因组上面的关系及实际文库大小进行检测。
SV示例拷贝数变异(Copy number variations):是指基因组片段的拷贝数增加(duplication)或者减少(deletion)。Redon等将1kb或更长的,与参考基因组不同的拷贝数的DNA片段定义为一个CNV。在人类及动植物基因组中广泛分布,其覆盖的核苷酸总数大大超过单核苷酸多态性(SNP)的总数,极大地丰富了基因组遗传变异的多样性。例如:人类基因组中存在2319个CNV,总长360Mb,约为人类基因组的12%,与2908个基因相重叠。
CNV示例以上几种常见的变异类型,那么怎么来检测这些变异呢?这就要说到重测序,可分为全基因组重测序和简化基因组重测序。
全基因组重测序(WGS):全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel)、结构变异位点(SV)位点和拷贝数变异位点(CNV)。覆盖全基因组范围,通常测序5~30x深度,要求有参考基因组,成本最高。
简化基因组测序:指用限制性内切酶对基因组进行简化,只对酶识别位点相关的DNA进行高通量测序。
GBS(Genotyping-by-Sequencing)技术测序原理是将基因组DNA进行酶切,选取一定范围内的酶切片段然后对酶切片段两端序列进行高通量测序,通过分析获得SNP信息并进行基因分型,是一种快速、简便、低成本的基因分型方法。双端酶切,覆盖全基因组范围的1%~3%,测序深度推荐10w tags/G(基因组大小),有参无参均可选择,成本较低。
GBS建库示意图RAD-seq (Restriction-site associated DNA-sequencing)文库构建,首先应用限制性内切酶EcoRI对基因组进行酶切(单酶切),然后分别对每个样本进行物理打断,构建200~400bp插入片段文库,然后进行双末端(Paired-End)150bp测序。覆盖全基因组范围的10%,单端酶切另一端随即打断建库,比对样本(有参)测序1x,组装样本(无参)5~10x。(这里说明一下,对于无参物种通常需要一部分数据组装起来作为参考序列,所以用于组装的样本需多测些数据量。)
RAD建库示意图除了以上两种简化基因组外,还有dd-RAD、SLAF等技术,不作过多介绍。通过二代重测序检测的变异类型一般是SNP和InDel,这些变异后期能做哪些分析呢,下次再说。
此外还有大片段的结构变异SV,目前市场上通常用三代测序技术(PacBio或者Nanopore)来检测。可以用来挖掘新的、稀有的大片段结构变异,与重要农艺性状关联的功能研究,分析SV在基因组分布特征、SV与染色质结构及基因表达修饰的关系,并且可以检测外源片段的插入,比如T-DNA插入检测。
参考学习:
网友评论