作者:May
审稿:童蒙
编辑:angelica
前言
在denovo基因组测序中,通常会先预估基因组大小,杂合度等信息,根据基因组大小和复杂度来判断测序数据的深度,组装基因组的难易程度等。
预测基因组大小的方法主要有两种,基于Kmer频率的survey分析和基于流式细胞术(Flow Cytometry)的实验方法。
流式细胞术是一种经济高效、相对准确且快速的植物基因组大小估计的实验技术。与 DNA 定量结合的荧光染料对完整细胞核进行染色来估计 DNA 量。在木本植物中高浓度的酚类化合物,可能会导致化学计量误差。
基因组大小也可以通过 Illumina 测序数据的 k-mer 分析进行估计。许多用于生成 k-mer 频率的工具(例如,KAT 、Jellyfish)和基于 k-mer 的基因组大小估计(BBNorm 、Genomescope、FindGSE) 已开发。
这里通过在南非红茶中(Mgwatyu et al., 2020)进行的分析,简单对比一下Kmer survey和Flow Cytometry预估基因组大小的结果对比及影响因素。
流式细胞术估计基因组大小影响因素
使用流式细胞术估计了八种不同生长类型的从南非红茶基因组大小。测试了四种细胞核分离缓冲液、三种植物组织和四种用于从远处收集的南非红茶叶材料的运输介质,来揭示这些因素对基因组大小的影响。
1.缓冲液
用南非红茶幼苗测试了四种细胞核分离缓冲液(Partec buffer, LB01 with 5x Triton X-100 (LB01-5x), LB01 with 10x Triton X-100 (LB01-10x)和Woody Plant Buffer (WPB))在流式细胞术估计基因组大小中的适用性,使用 WPB 获得了最佳结果。
2.组织类型
使用 WPB 分离和染色来自胚根和子叶的细胞核,两个月南非红茶幼苗的新鲜和干燥叶子。使用蚕豆 (2C = 26.66 pg) 作为内参考估计基因组大小。植物组织类型显着影响DNA 含量的估计, 对于,胚根的值 ( 2.54 pg) 显着低于子叶 (2.64 pg) 和叶子 (2.69 pg), 4C 峰在胚根中比在子叶和叶中更突出。这些组织的计算出的 1C 基因组大小等于 1.24 ± 0.01 Gbp、1.29 ± 0.02 Gbp。
3.保存运输介质
流式细胞术一般选择新鲜植物材料, 当在偏远地区收集样品时,必须确保适合的其运输介质, 测试了四种保存介质:
- 无菌水
- 5% 甘油溶液
- 10% 甘油溶液
- 硅胶
其中硅胶最适合样本保存。不同地点收集的南非红茶植物二氧化硅干燥叶样本的流式细胞术基因组大小估计。来自大田植物干叶样本在基因组大小估计方面表现出最高的变异性,范围从 1.16 Gbp 到 1.42 Gbp。图1展示了不同生长类型的叶片使用流式进行基因组大小的差异。
图1 使用不同生长类型的南非红茶叶片进行流式细胞术基因组大小估计 (RC = Red Commercial (n = 10), RE = Red Escaped (n = 5), RW = Red Wild (n = 6), WT =Wupperthal Type (n = 9), TT = Tree Type (n = 5), GS = Grey Sprouter (n = 5), NiS = Nieuwoudtville Sprouter (n = 11), NS = Northern Sprouter (n = 5), AT = Algeria Type (n = 5), NT = Nardouwsberg Type (n = 4))Kmer频率估计基因组大小
研究了四种方法(BBNorm、GenomeScope 和 FindGSE)和常用的基因组大小计算公式。对于每个程序,研究了
- iSeq 序列子集与完整数据集(MiSeq 和 HiSeq 数据)
- k-mer 大小
- 原始数据与质控处理数据。
GenomeSope(v1 和 v2)的表现受参数设置的强烈影响:基因组大小估计从 0.51 Gbp 到 1.01 Gbp。最有影响的参数是最大 k-mer 覆盖的cutoff-mer 覆盖率 (CovMax)。在较低的 CovMax 设置下差异更大,范围从 1k 时的 0.17 Gbp、10k 时的 0.11 Gbp 到 900k 时的 0.01 Gbp。对于 GenomeScope,使用 MiSeq 子集与完整数据集以及原始数据与质控处理数据的影响很小 (<0.10 Gbp)。
FindGSE 预测南非红茶基因组大小为 1.06 ± 0.03 Gbp(所有测试参数的平均值)。使用该程序,MiSeq 子集与完整数据集中相应值之间的差异很小(范围从 0.01 Gb 到 0.09 Gb)。增加 k-mer 大小只会略微增加基因组大小估计(最大 0.04 Gbp),原始数据和质控处理数据之间的差异也很小(最大 0.04 Gbp)。
BBNorm 估计南非红茶基因组大小为 1.08 ± 0.03 Gbp。MiSeq 子集和完整数据集之间的差异很小)。k-mer 大小的增加仅使基因组大小估计值增加了 0.05 Gbp。质控处理数据和原始数据集之间的差异最大为 0.04 Gbp,k-mer 大小对南非红茶基因组大小影响不明显。
表 1. 使用Illumina 测序数据对南非红茶基因组大小估计。总结
植物基因组大小的估计仍然是一项具有挑战性的工作。除上面描述的因素,不同植物化合物会影响染色剂结合,造成流式细胞术对基因组大小高估。而基于 k-mer 分析的值可能会受数据质量、软件及参数设置的影响,因此通过两种方式评估的基因组大小经常存在差异,对此应正确看待,并分析造成差异的具体原因。
参考文献
Mgwatyu, Y., Stander, A.A., Ferreira, S., Williams, W., and Hesse, U. (2020). Rooibos (Aspalathus linearis) Genome Size Estimation Using Flow Cytometry and K-Mer Analyses. Plants (Basel) 9.
网友评论