BMC biologySalter S J, Cox M J, Turek E M, et al. Reagent and laboratory contamination can critically impact sequence-based microbiome analyses[J]. BMC biology, 2014, 12(1): 87.
被引用次数:1422
2014 试剂及实验室污染可严重影响微生物组测序的结果
摘要
背景
近年来,随着16S rRNA基因测序和宏基因组学等非培养依赖的分析技术广泛应用,微生物群落研究发生了革命性的变化。这些基于序列的方法的一个潜在的混杂因素是DNA提取试剂盒和其他实验室试剂中的污染。
结果
在这项研究中,我们证明污染的DNA普遍存在于常用的DNA提取试剂盒和其他实验室试剂中,不同试剂盒和试剂盒批次之间的成分差异很大,并且这种污染严重影响从微生物量较低的样品中获得的结果。基于pcr的16S rRNA基因测序和宏基因鸟枪法测序均会收到污染的影响。我们提供了一个潜在的污染菌的列表,以及如何减轻污染影响的建议。
结论
这些结果提示,在微生物量较少时,测序研究微生物群时应谨慎。强烈建议同时对阴性对照样本进行测序。
1. 背景
微生物群落研究正在彻底改变我们对微生物学的理解,揭示微生物、动物和植物之间微妙的相互作用。两种广泛使用的技术是对pcr扩增的标记基因(如16S rRNA)或鸟枪法进行深度测序。虽然这两种方法都很强大,但是它们有重要的技术限制,这可能会扭曲序列数据集中观察到的微生物群落分布和概率。这些局限性在文献中已经得到了很好的阐述,包括与样本收集、样本存储和保存、DNA提取、扩增引物、测序技术、读长和深度以及生物信息学分析技术相关的选择。
另一个相关的问题是在样品制备过程中引入的污染微生物DNA。可能的DNA污染来源包括分子生物学级水、PCR试剂和DNA提取试剂。与水及土壤相关的细菌属包括不动杆菌属(Acinetobacter)、产碱菌属(Alcaligenes)、芽孢杆菌(Bacillus)、慢生根瘤菌(Bradyrhizobium)、草螺菌属(Herbaspirillum)、军团菌(Legionella)、赖氏菌属(Leifsonia)、中生根瘤菌属(Mesorhizobium)、甲基杆菌(Methylobacterium)、微杆菌(Microbacterium)、新鞘氨醇杆菌属(Novosphingobium)、假单胞菌(Pseudomonas)、罗尔斯顿菌(Ralstonia)、鞘状单胞菌(Sphingomonas)、窄食单胞菌(Stenotrophomonas)和黄单胞菌(Xanthomonas)的污染序列已经被报道过。污染DNA的存在对研究人员来说是一个特别的挑战,因为研究的样本微生物量通常很低。在这些情况下,少量的起始物质可能被污染的DNA有效地淹没,并产生误导的结果。
尽管污染DNA的存在已经在文献中被报道过,通常与基于pcr的研究相关,但它对高通量的基于16S rRNA的基因分析和鸟枪法宏基因组学研究的可能影响尚未被报道。我们对阴性对照进行测序,包括“空白”DNA提取和随后的PCR扩增。尽管在DNA提取步骤中没有添加样本模板,这些阴性对照样本通常会产生一系列的污染细菌种类(见表1),这些细菌种类也常常出现在与同一批DNA提取试剂盒同时处理的人体有关的样本中。污染序列在低生物量样本(如血液或肺部)中比在高生物量样本(如粪便)中存在更大,这表明污染DNA在序列库中占主导地位存在一个临界点。
表1 在阴性对照中检测到的污染菌序列许多最近的研究描述了核心的微生物区成员,通常是生物学上意想不到的成员,它们与以前描述的污染属有重叠。受此以及我们实验室在处理低输入DNA样本时的阴性对照样本结果的启发,我们调查了污染对微生物群研究的影响,并探索了限制这种污染影响的方法。在这项研究中,我们确定了常用的DNA提取试剂中存在的污染物的范围,并证明了它们对微生物研究的重大影响。
2. 结果
2.1 提纯培养的邦格里沙门氏菌(Salmonella bongori)S rRNA基因序列分析
为了证明污染DNA的存在及其对高、低生物量样品的影响,使用纯培养的邦格里沙门氏菌进行了五轮的十倍稀释(相当于一系列大约个细胞作为原始未稀释的样本,最终稀释到了)进行16 s rRNA基因序列分析。之所以选择邦格里沙门氏菌,是因为在之前的研究中没有观察到它是一种污染物,而且可以通过16S rRNA基因测序从其他沙门氏菌中区分出来。由于采用纯培养作为起始模板,无论起始生物量如何,后续DNA测序结果中观察到的邦格里沙门氏菌以外的任何生物都来源于污染。稀释系列的一部分被送到了三个研究所(伦敦帝国理工学院,ICL;伯明翰大学,UB;惠康信托桑格研究所,WTSI)与不同批号的FastDNA SPIN土壤试剂盒(Kit FP)进行处理。分别用20和40个PCR周期产生16S rRNA基因扩增子,返回WTSI(惠康信托桑格研究所)进行Illumina MiSeq测序。
邦格里沙门氏菌是在未稀释样本中唯一能检测到的菌,但随着稀释度的增加,邦格里沙门氏菌的相对丰度慢慢下降(图1)。在第五次稀释后,相当于输入大约个沙门氏菌细胞,测序的结果就以污染菌为主了。这一模式在所有三个研究地点上都是一致的,特别是40个PCR周期该现象更加明显。这些结果突出了低生物量样品的一个关键问题,最大稀释度的20个PCR循环的产量非常低,导致用于测序的序列库对样本的代表性不足(每个样本的序列列于附加文件1:表S1a)。相反,使用40个PCR周期产生足够的PCR产物进行有效测序(每个样本至少返回14000个序列,见附加文件1:表S1a),但很大一部分序列来自污染、非沙门氏菌的DNA。应该注意的是,即使使用20个PCR周期,污染仍然序列是生物量最低样本的主要序列(见附加文件1:图S1)。
after 40 PCR cycles after 20 PCR cycles(星号代表序列数小于50,说明建库对样本的代表性不足) 不同样本测序结果物种丰度构成图显示了不同研究地之间的一些相似的分类学特征,包括酸杆菌Gp2(Acidobacteria Gp2,最下面)、微杆菌(Microbacterium)、丙酸杆菌(Propionibacterium)和假单胞菌(Pseudomonas)(图1b)。然而,不同的研究地也存在差异,WTSI以黄杆菌(Chryseobacterium)、肠杆菌(Enterobacter)和马氏菌(Massilia)为主,UB以鞘单胞菌(Sphingomonas)为主,ICL以棒状杆菌(Corynebacterium)、Facklamia和链球菌(Streptococcus)为主,放线菌总体比例较大(图1a)。这说明实验室之间的污染物含量存在差异,这可能是由于试剂/试剂盒批次之间的差异或从实验室环境中引入的污染物造成的。许多污染的操作分类学单位(OTUs,相当于一个菌种)通常为土壤和水中的细菌属,如节杆菌(Arthrobacter)、伯克霍氏菌(Burkholderia)、黄杆菌(Chryseobacterium)、苍白杆菌属(Ochrobactrum)、假单胞菌(Pseudomonas)、罗尔斯顿菌(Ralstonia)、红球菌属(Rhodococcus)和鞘单胞菌(Sphingomonas)等,而其他如棒状杆菌、丙酸杆菌和链球菌等则是常见的与人类皮肤相关的细菌。通过PCR“空白”阴性对照,特别是没有添加模板DNA的PCR扩增的超纯水,我们能够区分来自DNA提取试剂盒的分类单元,而不是来自其他来源的DNA(如PCR试剂盒试剂、实验室耗材或实验室人员)。63个类群在稀释样本中有>0.1%的丰度而在所有空白对照中均缺失(见附加文件1:图S2),表明它们是在DNA提取阶段引入到样品中的。这些包括在所有三个地点观察到的几个丰富的属,如酸杆菌Gp2(Acidobacteria Gp2),伯克霍德菌(Burkholderia),未分类的伯克霍尔德科(Burkholderiaceae )和中生根瘤菌属(Mesorhizobium)。它还包括仅在一个或两个研究所处理的样品中存在的类群,如Hydrotalea和缓生根瘤菌(Bradyrhizobium),这可能表明同一类型的DNA提取试剂盒的不同批次的污染物之间存在差异。
2.2 qPCR测量细菌的生物量
为了评估样本中存在多少背景细菌DNA,我们对细菌16S rRNA基因进行qPCR,并参照标准曲线计算基因的拷贝数。假设完全没有污染,存在的16S rRNA基因的拷贝数应该与邦格里沙门氏菌的稀释相关,并以线性方式减少。然而,在第三个稀释拷贝数保持稳定,没有进一步减少,表明存在约500copies/μl洗脱体积的DNA试剂盒背景菌(图2)。
16S rRNA genes 的拷贝数与稀释比例,红线表示检测下限即45个16s rRNA拷贝2.3 用四种商业DNA提取试剂盒处理的邦格里沙门氏菌鸟枪法宏基因组测序
在确定了16S rRNA基因测序结果可以被污染的DNA干扰后,我们接下来调查了在不涉及靶向PCR步骤的shotgun宏基因组学研究中是否出现了类似的模式。我们假设,如果污染来自DNA提取试剂盒,它也应该出现在宏基因组测序结果中。研究人员使用了四家不同制造商的DNA提取试剂盒,以调查该问题是否仅限于一家制造商。用土壤FastDNA SPIN Kit试剂盒(FP)、MoBio UltraClean Microbial DNA Isolation Kit 试剂盒(MB)、QIAmp DNA Stool Mini Kit(QIA)和PSP Spin Stool DNA Plus kit试剂盒(PSP)在UB实验室中进行了邦格里沙门氏菌稀释系列的处理。与16S rRNA基因测序结果类似,随着样品稀释度的增加,与邦格里沙门氏菌参考基因组序列比对的reads比例下降(图3a)。不管试剂盒是什么,污染始终是序列数据的主要成分,通过第四次连续稀释,相当于输入大约个沙门氏菌细胞。
图3:4种不同的试剂盒对不同稀释度的邦格里沙门氏菌处理后的宏基因组鸟枪法测序的结果样品在同一实验室内同时进行处理。如果污染来自实验室环境,那么每个结果中都应该有相似的细菌组成。然而,在每个试剂盒中观察到一系列不同的背景细菌(图3b)。FP试剂盒以伯克霍氏菌为主(Burkholderia),PSP以慢生根瘤菌(Bradyrhizobium)为主,而QIA试剂盒的细菌DNA组合最为复杂。在PSP、FP和QIA试剂盒中,至少四分之三的稀释液中含有慢生根瘤菌科(Bradyrhizobiaceae)、伯克霍尔德菌科(Burkholderiaceae)、甲壳菌科(Chitinophagaceae)、豆科(Comomonadaceae)、丙酸杆菌科(Propionibacteriaceae)和假单胞菌科(Pseudomonadaceae)。但是,在科水平上不同试剂盒的相对丰度是不同的:FP由伯克霍尔德菌科(Burkholderiaceae)和肠杆菌科(Enterobacteriaceae)为主,PSP以慢生根瘤菌科(Bradyrhizobiaceae)和甲壳菌科(Chitinophagaceae)为主。与其他试剂盒相比,QIA试剂盒的污染相对多样化,其中空气球菌科(Aerococcaceae)、杆菌科(Bacillaceae)、黄杆菌科(Flavobacteriaceae)、微杆菌科(Microbacteriaceae)、类芽孢杆菌科(paenibacillus)、浮霉菌科(Planctomycetaceae)和多囊菌科(Polyangiaceae)的污染比例高于其他试剂盒。Kit MB没有明显的污染菌特征。这可能是由于测序的读数非常低,在稀释2中有210个reads,稀释3中有79个reads,在随后的稀释中不到20个reads(见附加文件1:表S1b)。虽然read计数只是DNA浓度的半定量测量,但这可能表明该试剂盒的背景污染水平相对较低。
表S1b在以假单胞菌(Pseudomonas)为主的空白水对照中有相对较少的污染物。这进一步证明,所观察到的污染在很大程度上来自DNA提取试剂盒本身。因此,这些宏基因组结果表明,低生物量样本的序列以污染菌为主,即使没有PCR扩增步骤,用于提取DNA的试剂盒可以对所观察到的细菌多样性产生影响。生物量的减少增加了这些污染物对所检测到的微生物群的影响。
2.4 提取试剂盒对低生物量微生物研究的影响
在确定了不同批次的DNA提取试剂盒中的污染不可预测的之后,我们接下来将研究这对真实数据集的影响。最近在泰国和缅甸边境的一个难民营进行的一项研究使用了现有的鼻咽拭子样本来检查婴儿鼻咽微生物群的发育。在2007/2008年出生的20名儿童中,每个月取样一次,直到两岁,这些样本的16S rRNA基因图谱通过454焦磷酸测序进行测序。
主成分分析(PCoA)显示了两个不同的类群,生命早期采集的样本与后续采样时间点采集的样本明显可以区分开,这表明鼻咽菌群很早就建立了(图4a)。研究使用了四批FP试剂盒提取样品,并记录了用于每个样品的试剂盒。对现有OTU(相当于菌种)的进一步分析表明,样品的群落特征取决于使用哪种试剂盒进行DNA提取(图4b,d,e),并且前两个试剂盒的相关OTU构成了样品读数的大部分(图 4d)。由于样品是按时间顺序而不是随机顺序提取的,这导致了错误的结论,即前两个试剂盒中的OTU与年龄有关。 OTU驱动群集在图4a和b的左侧(P值<0.01),主要包括无色杆菌(Achromobacter),氨基杆菌(Aminobacter),短杆菌(Brevundimonas),草螺线菌(Herbaspirillum),苍白杆菌(Ochrobactrum),土地杆菌(Pedobacter),假单胞菌(Pseudomonas),红球菌(Rhodococcus),鞘氨醇单胞菌(Sphingomonas)和窄食单胞菌(Stenotrophomonas)。 指向右侧的OTU驱动群(P值<0.01),包括氨基酸球菌(Acidaminococcus)和罗尔斯顿菌(Ralstonia)。重要OTU的完整列表在附加文件1:表S2中。一旦确定并去除了污染物,样品的PCoA聚类就不再具有可识别的模式,这表明污染物是样品排序的最大驱动力(图4c)。从原始样品档案中获得新的等分试样,并使用不同的试剂盒进行重新处理并进行测序。未检测到先前观察到的污染物OTU,进一步证实了原始鼻咽样品中不存在这些污染物。
图4 泰国鼻咽样品中的污染物含量a) PCoA图显示样本中的微生物群落与年龄相关(不同年龄可分为2簇)
b) 不同样本的提取试剂盒比年龄更好地揭示了2簇之间的差异
c) 排除了污染菌的OTUs后,不同年龄的样本无法再通过主成分分析区分开
d) 不同试剂盒的污染序列所占比例,图中表面前2个试剂盒的污染序列比例较多。
e)每个试剂盒中在属水平上污染菌OTUs的构成
因此,该数据集可作为案例研究,表明试剂盒中污染物对微生物群分析和后续结论可能产生的重大且可能具有误导性的影响。
3. 讨论
研究结果表明,在DNA提取试剂盒和实验室环境中,DNA污染不仅是需要靶向PCR扩增的16S rRNA基因测序项目关注的问题,而且应该还是宏基因组鸟枪法测序需要关注的问题。
从PCR试剂、试剂盒和水中多次检测到污染DNA。鉴定的分类群多为土壤或水栖细菌,常与固氮有关。对此的一种解释可能是,在超纯储水罐中经常使用氮气代替空气。DNA提取试剂盒试剂污染也有报道,试剂盒污染对低生物量研究是一个特别的挑战,因为低生物量的样本只有很少的DNA与试剂的DNA在扩增的时候竞争。污染问题一直困扰着研究,比如在新病毒的发现这一领域出现了一些引人注目的例子,比如XMRV(嗜异性鼠白血病病毒相关病毒)和慢性疲劳综合症的错误联系(2009 Sicence乌龙事件:XMRV与慢性疲劳综合征无关),以及对早期人类的古代DNA和病原体的研究。不同实验室对古冰岩芯样品的微生物含量的分析结果也不一致。
在分析低生物量样品时,尽管有如此严重的试剂污染报告,这一问题的重要性在微生物群落研究中显然仍未得到重视。设置了良好对照组的研究,如Segal等人通过支气管肺泡灌液检测肺微生物群,报告他们的结果时使用了大量的“背景”对照。然而,许多描述低生物量环境中微生物群落的基于DNA序列的出版物并没有报告初始样本的DNA定量、阴性对照的测序或描述其污染物去除或识别程序。我们的文献检索表明,有许多低生物量的微生物群研究报告,其报道的核心种群与我们从试剂和水中检测到的菌种有重叠(见表1)。虽然在许多情况下,这些菌群在生物学上没有意义,但可以认为这些菌群是真正存在于这些样本:例如,在人类疾病中发现的与根球菌相关的细菌。引人注目的是,Laurence等人的最近在体外分析中证明,缓生根瘤菌是测序数据集(包括1000人类基因组计划)中的一种常见污染物。已经证明了污染的DNA可能会对从基于序列的数据得出的结论产生重要影响,能够确定哪些检测结果是真实的就变得很重要了。对于环境样品,例如土壤或水,识别污染物的问题需要特别注意,因为污染物可能与样品中真正存在分类单元难以区分。
许多减少潜在的污染的方法已经被提出,包括:伽马或紫外线辐射,DNase处理,限制性消化,氯化铯密度梯度离心法、DNA夹层、交联8-甲氧基补骨脂素(8-methoxypsoralen),叠氮化丙锭(propidium monoazide)或单叠氮化乙锭(ethidium monoazide)。然而,这些方法的成功率不稳定。辐射会降低酶的活性,DNA酶处理也会损伤聚合酶,限制性内切酶可能会引入更多的污染DNA,而未结合的DNA插入物会抑制模板的扩增。去除污染的另一种选择是优先使用广谱引物PCR扩增模板DNA,但不能去除通过DNA提取试剂盒引入的污染。
用于微生物群研究的一种简单的计算机模拟方法是识别使用阴性对照或污染物数据库鉴定出的污染菌,以便从下游分析中筛选出来。如果某些污染菌群也具有生物学上的合理性,则不应将其排除在分析之外,则可以采用其他方法。统计和基本可视化方法可用于比较阴性对照和样品之间的相对丰度或等级信息,这有助于确定分类单元是否也是真实的。另一种生物信息学方法,如寡分型法,有可能对同一属或同一种的污染菌OTUs和真正存在的OTUs进行细粒度的区分。在鸟枪法宏基因组学研究中,使用菌种特异性基因或使用跨多个标记基因的系统发育信息也可以提供必要的鉴别。在这种情况下,在这种情况下,构建中性模型以比较来源(试剂盒对照)和接受的菌群也可能有用。
通过添加阴性测序对照(具体地说,无模板“空白”对照使用与实际样品相同的DNA提取和PCR扩增试剂盒进行处理,在相同的批次中进行测序),可以识别来自污染菌的序列,并将它们与来自实际组成分类单元的读序列区分开来。我们开发了一套建议,有助于限制试剂污染的影响(框1)。对常见污染菌种要有意识,对不同批次的样本提取和PCR试剂盒均使用阴性对照,监测污染菌,可以有效地减轻污染菌在微生物群的影响。
Box1
减少污染物对低生物量微生物群研究影响的建议:
1. 尽可能通过选择样品类型、过滤或浓缩使初始样品生物量最大化。如果微生物负荷小于大约至个细胞,由于污染占主导地位,可能无法获得可靠的结果。在这方面,革兰氏染色、荧光原位杂交(FISH)、qPCR或其他测序之前DNA定量的方法可能是有用的指南。然而,必须指出的是,基于显微镜的技术的检测极限可能会阻碍(impede)在非常低的水平上对细菌细胞数量的精确定量,而DNA定量措施可能会受到在DNA提取阶段引入的污染的影响。
2. 在样品采集时将污染的风险降至最低。可对PCR和提取试剂盒试剂进行处理以减少污染物DNA。
3. 每批样品,每种提取试剂盒和每种PCR试剂盒,都进行阴性对照与目标环境样品同时进行收集处理及测序。
4. 样品应以随机顺序处理,以避免产生错误的模式,理想情况下应重复进行,应使用不同的试剂盒/试剂批次进行处理。
5. 应记录使用哪个试剂盒处理哪个样品,以便可以将特定试剂盒批号的污染追溯到最终数据集。
6. 阴性对照样品定量应在处理的各个过程中都进行,以监测污染的发生。
7. 测序后,要注意阴性对照中的分类单元,统计上与特定批次试剂相关的分类单元,以及生物学上无意义的分类单元,与之前报道的污染物相一致的分类单元,如表1中所列的。
8. 如果认为可疑污染的菌群确实存在有意义,则应该使用不同批次的DNA提取试剂盒/试剂进行重复测序,理想情况下,一个非测序依赖的方法(如传统培养或使用适当的探针进行原位杂交)也应该被用来进一步证实他们的真实存在。
4. 结论
我们已经证明,提取试剂盒和实验室试剂中的细菌DNA污染可以显著影响微生物群研究的结果,特别是在调查微生物量较低的样品时。这种污染对于需要定向PCR扩增和富集的16S rRNA基因测序和不需要定向PCR扩增和富集的shotgun宏基因组测序来说都是一个问题。微生物菌群研究界对这一问题的认识对于确保研究充分进行阴性对照,避免得出错误结论。
表1:常见污染菌总结
试剂及环境中常见污染菌
网友评论