作者:山木
编辑:angelica
Q1:关于GC含量与测序深度(Depth)关联分析统计图,横纵向离群区块的解释。
同一物种的基因组GC含量分布模式趋向一致。若图中有明显横向区块分布,则判断数据很大程度可能存在其他物种污染。若是纵向离群区块,则一般是由于物种重复序列较多导致。
Q2:组装得到Total length小于Genome size程度较大(比如Total length/Genome size<0.7)是什么情况?
A2:此种情况多为初始预估基因组与survey分析计算基因组偏差较大。一般为测序深度不足,物种基因组未能得到较好覆盖,导致组装后断点较多。
因此,组装的总长度偏离计算基因组大小值。一般建议测序预估基因组50X以上,基因组可得到较好覆盖。
Q3:关于survey分析数据,NT比对的Hit1和Hit2常比对到其他物种,如何解释?
A3:需进行survey分析组装预测的物种,常为较“新”的物种。
这些物种在现有NT库中的信息记录并不是非常全面,或相关属种分类不完善,也可能为近缘物种研究更为透彻、信息全面,导致比对到近缘物种序列较多。
此类情况一般为正常现象,只要比对情况未跨离本物种过远,建议继续分析。后续可根据GC含量分布图检测数据是否有所污染。
Q4:如何看K-mer频率分布图?
简单基因组Survey分析图(单峰)
在理想状态下,K-mer曲线服从泊松分布,即只会出现一个明显的主峰。当基因组中不存在杂合区和重复序列,或者杂合度较低、重复序列在整个基因组中占比较少时,通常会看到单峰的K-mer频率分布图。
高重复基因组Survey分析图(双峰,矮峰在后或有拖尾)
基因组复制事件会使基因组中产生大量的重复序列。重复序列的存在使得基因组中某一个K的K-mer序列增多,即K-mer的出现频率增加。在进行K-mer分析时,表现为主峰拖尾或在主峰后对应横坐标的整数倍处出现重复峰。
高杂合基因组Survey分析图(双峰,矮峰在前)
在高杂合基因组中,序列中的杂合位点会使得(该序列的)K-mer分成两个部分,序列中某些碱基的覆盖深度也会相应减半。因此,与纯合序列相比,杂合片段中K-mer的覆盖深度会下降50%。最终在K-mer曲线上表现为:在主峰前对应横坐标的1/2处出现一个小峰,且基因组的杂合度越高,该峰越明显。
多倍体基因组Survey分析图(多峰)
基因组复制、杂交等事件除了会引起基因组中重复序列含量和杂合度增加外,也可能会导致同源或异源多倍体的产生,多倍体的峰图判断也相对更复杂。异源四倍体通常是由两个不同的二倍体物种杂交产生,又称双二倍体,因此,异源四倍体的峰图跟二倍体有一定程度的相似。而同源多倍体则不同,其Survey图中往往会出现更多峰,且峰值较高。对于多倍体的鉴定要谨慎,最好是结合物种核型分析和材料具体来源等因素进行综合考虑。
左侧:某异源四倍体植物基因组K-mer频率分布图;右侧:某同源四倍体植物基因组K-mer频率分布图
参考资料:
http://genome.annoroad.com/News/Achievements/1079.html
网友评论