本文译自Cell Line Detective Work-Basic Principles and Molecular Application
要点
错误识别的细胞系不能与正确的物种或供体来源相对应,而与来自不同供体的细胞系相对应。
错误识别的细胞系可以通过身份验证测试来检测。对于人类细胞系,短串联重复序列(STR)基因分型是跨实验室比较的共识方法。
细胞系调查需要对细胞系来源进行评估,包括报告的信息和认证数据。
测试样本经过验证,并与来自报告供体的参考样本或细胞系数据集进行比较,以帮助排除与其他细胞系的错误识别。
基于基因型的方法,包括单核苷酸多态性(SNP)基因分型,为认证提供了新的机会。
基于蛋白质组学的方法可以更好地理解组织起源和疾病诊断,这对细胞系研究很有帮助。
细胞系为何需要检测
细胞系是有价值的模型
细胞系是生物医学研究、临床诊断和临床翻译的重要资源。细胞系通常从组织样本中建立然后培养,因为细胞的持续供应被认为是可取的。一旦形成一个连续的细胞系,培养物就会无限增殖,成为取之不尽的细胞来源。虽然细胞培养在某些领域可以被体外无细胞体系所取代,但细胞系仍可用于诊断化验、治疗筛选和生物医学研究。例如,2012年使用的生物药品中,估计有65%是用动物细胞培养生产的。
第一个人类细胞系HeLa于20世纪50年代建立。随着时间的推移,基因改造和对生长条件的控制提高了细胞系的建立率,细胞系建立过程更容易,也更容易为研究实验室所实现。因此,研究队伍现在有丰富的细胞系模型。作为细胞系知识资源的Cellosaurus,列出了超过10.7万个细胞系,大约有8万个人类起源(https://web.expasy.org/cellosaurus/)。
细胞系可能起源不明
虽然细胞系被广泛使用,但它们也受到质量问题的影响。错误识别的细胞系是指未能与正确的供体来源对应,而是对应于不同供体的细胞系。错误识别的细胞系可能通过错误标记培养物或交叉污染产生,在这种情况下,来自另一种培养物的细胞在科学家不知情的情况下被意外引入。交叉污染最初会导致来自不同来源的细胞混合,正如Raymond Nims在一篇文章中所描述的那样,“我们一直以来通过检测种间和种内细胞混合物从而确保细胞系纯度”。然而,一种生长速度更快的污染物只需经过几代时间就可以取代原始的、真实的细胞株。在大多数情况下,人们甚至来不及弄清楚错误识别是如何发生的。对这种污染的早期研究表明,HeLa细胞在处理过程中很容易通过液滴传播。
最近一项关于细胞系质量问题的调查显示,被错误识别的细胞系很常见。来自次要来源的错误识别细胞系的风险估计为1:6。错误识别的细胞系也广泛用于已发表文章中。国际细胞系鉴定委员会(ICLAC)负责管理错误识别细胞系的登记(http://iclac.org/databases/cross-contaminations/)。这些被错误识别的细胞系已经在大约32,755份科学出版物中被使用。
错误识别的细胞系可以通过认证来检测,这里定义为验证细胞系身份的测试是证明它来自正确的物种和供体。“认证”可以定义得更广泛,包括所有用于检测细胞系有效性的测试。然而,一个更宽泛的定义意味着认证要求会随着组织类型和疾病诊断而变化。在本文中,“认证”指的是用于检测错误识别的细胞系的基于基因型的方法,“鉴定”指的是用于确定细胞系是有效模型的更广泛的测试。在某些情况下,很难证明在执行认证之后错误标识了细胞系。这通常是因为细胞系的起源不清楚。细胞系起源的问题通常与它的年龄、细胞系样本的质量和信息有关。广泛使用的大多数细胞系是在上个世纪建立的。随着实验室的关闭和研究人员的退休,当发现问题时,与最初的实验室联系寻求帮助变得越来越困难。早期的样本变得越来越难以获取,除非细胞系被保存在一个参考库中。早期样本也很重要,因为细胞系可能会随着传代而发生遗传漂变,特别是杂合性(LOH)的丧失。如果一个细胞系在从一个研究者传递到另一个研究者的过程中是连续传代的,那么基因漂移就会变得更加明显,认证数据也会变得更加难以解释。
当一个细胞系的起源不清楚时,科学家必须使用一个调查过程来确定这个细胞系是真实的还是被错误识别的。这是最有力地证明了医学博士Jørgen Fogh的工作,他在Sloan-Kettering研究所建立了一个开创性的引用存储库。Fogh使用分子方法,主要是同工酶分析,进行认证。Dracopoli和Fogh首先认识到细胞系基因型易受LOH的影响,因此需要增加检测位点的数量以提高区分能力。他们细致入微的方法解决了来源不明的案件,这些案件在今天仍然具有挑战性。
例如,Fogh调查一组供体来源一样的8株细胞系,与发起人共同发现这些细胞系中两株为真,其余6株为 “假”。这两株通过认证的细胞系,SW480和SW620,来自于同一病人的原位和二级肿瘤,目前已经是研究肿瘤进展的良好模型。
本文描述了作者作为ICLAC(http://iclac.org/)成员使用的细胞系调查工作流程。该工作流程的总体目标是说明如何调查有问题的细胞系,并确定它是真实的还是被错误识别的。在某些情况下,细胞系信息和样本不足以做出决定。本文还讨论了最近的分子应用进展可能如何改善调查工作流程。
细胞系调查工作流程
步骤一:收集细胞信息
人们越来越关注细胞系分析的分子技术,这可能导致科学家直接跳到这些分子技术来研究细胞系。然而,屈服于这种诱惑的科学家很容易误解他们的数据。SW480和SW620这两个细胞系表明,如果要正确解释认证数据,细胞系来源的重要性。
细胞系起源可定义为提供关于细胞系起源、来源、处理和验证的信息的记录。使用的术语可能有所不同,一些调查人员更喜欢“历史”或“背景信息”。无论使用何种术语,细胞系起源对研究和临床翻译的重要性已被广泛认可。
表1列出了作者认为有助于调查细胞系起源的信息数据集。细胞系调查可以依赖于不寻常的信息。例如,发起者实验室的物理位置可能是相关的。如果2个细胞系有一个共同的供体来源,但由不同大陆上的不同实验室建立,供体不太可能从一个大陆到另一个大陆;更有可能的是其中一个细胞系会被错误识别。
最近的出版物和资源使搜集细胞系信息变得容易。例如,Cellosaurus(https://web.expasy.org/cellosaurus/)是一种细胞系知识资源,旨在描述生物医学研究中使用的所有细胞系。研究资源标识符(Research Resource identifier, rrid)是使用Cellosaurus生成的,可以在出版物中引用,使研究人员更容易明确地识别细胞系,尽管细胞系名称存在重复和相似之处。
捐赠方特定的信息可能会受到公开访问的限制。个人身份信息,如捐赠者姓名和出生日期,属于隐私,应始终作为机密信息对待,除非捐赠者同意发布。个人身份信息应由数据保管人保留,保管人可以是患者的临床护理团队成员,也可以是细胞系的发起者。最小的信息集(性别、年龄、组织类型、疾病诊断)对于细胞系来源是有价值的,应该在主要参考文献中报告。
步骤二:认证数据
细胞系认证依赖于数据比较。通常情况下,实验室测试来自其自身库存的样本(“测试样本”),并将其数据与来自主要来源的样本(“参考样本”)进行比较。参考样本可能包括来自原始供体的组织或血液、细胞系的早期传代样本或同义细胞系。参考样本也有可能被错误识别;例如,最近发现,广泛使用的U-87 MG参考样本与发起人所持有的样品相比较是错误的。为了降低这种风险,我们使用经典的肿瘤细胞系数据集来检测来自大量可能的污染物的错误识别。
为了在实验室之间比较样品,我们需要一个一致的认证方法。许多检测方法已被用于鉴定,包括同工酶分析、细胞遗传学分析、HLA分析、短串联重复序列(short tandem repeat,
STR)基因分型和单核苷酸多态性(single nucleotide多态性,SNP)基因分型。大多数方法是供体特异性的,基于个体遗传的基因组序列变异,但在群体水平上有所不同。如果从同一个体(例如,不同组织或肿瘤分期)建立的细胞系,供体特异性方法不会检测出问题;然而,这些方法对所有其他细胞系都是有效的,而且,如果使用足够的位点来区分来自不同个体的样本,供者特异性检测可以得到明确的结果。
目前,STR基因分型是鉴定人类细胞系的共识方法。通过主要来源对STR特征的早期共享以及国际研究机构的广泛采纳,20年来的试验积累了宝贵的数据。培养中的基因漂变会导致来自同一供体的样本的STR图谱发生变化,从而使一些数据难以解释。已经制定了匹配标准来指导从细胞系样本中解释STR特征,并能解决大多数疑难病例,前提是对足够数量的位点进行检测。
步骤三:细胞系信息和验证数据的差异
现在我们已经收集了相关的细胞系信息和认证数据,我们准备寻找差异:与报道的细胞系起源不相符的意外的或不寻常的发现。细胞系信息可能出现差异,例如,在难以建立细胞系的组织中发生的“自发转化”可能是发生了交叉污染。当将细胞系信息与身份验证数据放在一起时,差异通常会变得更加明显;例如,STR分析可能显示一个细胞系与HeLa有一个共同的供体来源,这是一个重要的差异,如果该细胞系被报道是来自不同的供体。
图2给出了作者认为有助于调查细胞系信息和验证数据差异的工作流程。评估差异是特别重要的,首先看是否可以用已知的培养差异来解释差异。例如,在974个雄性细胞系中有331个报道了y染色体物质的丢失,而在872个雌性细胞系中只有10个报道了y染色体物质的获得。因此,男性细胞系Y染色体的丢失是一种常见的细胞培养现象;在女性细胞系中获得Y染色体的信息更有意义,这表明该细胞系是错误识别的,可能来自于男性供体。
一旦发现差异,如何解决?差异通常通过与参考样本的比较来确认,但前提是参考样本是可靠信息的来源。例如,最近发现广泛使用的U-87 MG细胞系的STR谱与原始细胞的早期参考样本相比较时被错误识别。由于一些早期研究人员的远见和组织能力以及他们愿意将细胞株储存在参考库中,我们仍然有可能找到上世纪60年代和70年代的参考样本;然而,随着实验室的关闭和冻结库存的丢弃,早期样本正变得越来越少。当无法获得早期样本时,与其他细胞系进行比较对于检测未预料到的匹配是至关重要的。
除了供体来源之外,在身份验证数据中可能还存在其他线索。例如,细胞系STR配置文件显示LOH,随着细胞系传代,LOH变得越来越明显。LOH的程度可以表明来自同一供体的一个细胞系是否比另一个更广泛传代。仔细观察来自共同供体来源的细胞系(如M14黑素瘤细胞系及其衍生物家族)的STR谱,可以发现哪个细胞系的LOH含量最少,且最有可能是亲代细胞系;LOH水平较高的细胞系可能是衍生细胞。然而,这类证据依赖于一致的培养处理方法,包括在传代早期冷冻细胞系和记录传代数或种群倍增水平。如果亲代细胞系被广泛使用,它可能与其他衍生细胞系相比被储存在更高的传代中,LOH的相对水平可能会产生误导。
需要更多的分子技术来分辨差异,特别是在没有参考样品或参考样品可能不可靠的情况下。例如,细胞遗传学分析可以检测到疾病特异性或细胞系特异性的染色体重排。不幸的是,细胞系细胞遗传学分析所需的专业水平意味着STR基因分型是实验室之间比较的首选共识。虽然STR谱可以包括罕见的变异,例如,HeLa细胞系在D13S317有一个罕见的等位基因变异,但大多数等位基因在群体中出现频率很高,并且不是细胞系特异性的。
细胞株检验中新的分子手段
SNP分析正在成为一种补充性的鉴定方法,有可能用于人类和非人类细胞系。基于SNP的方法已经被用于实验室动物的检测,可以帮助在啮齿动物品系中发现识别错误。SNP基因分型也是一种有用的法医遗传学技术,特别是在自动工作流程和样本中,STR分析是不成功的。SNP标记可用于身份、世系(如通过血缘关系分析)、祖先和表型的分析。SNP基因分型还可以提供疾病特异性信息,从而更好地了解疾病易感性和药物敏感性。
对于细胞系,SNP基因分型为鉴定提供了一些明显的优势。SNP位点似乎不太容易发生遗传不稳定性,尽管做出这一结论需要更深入地研究更明显遗传漂变的细胞系亚群。SNP位点可以使用多个平台进行分析,减少了对任何一个平台或工具包的依赖,并允许同时执行多种类型的分析。许多SNP分析平台支持快速、高通量的工作流。例如,SNP基因分型可以使用基质辅助激光解吸/电离飞行时间质谱法,并结合表达谱进行。
尽管有这些优点,SNP基因分型还不能取代STR分析成为细胞系鉴定的共识方法。一些SNP基因分型平台已经证明了伪影,考虑到细胞系具有复杂的核型并可能携带多个SNP位点,这并不奇怪。目前还没有就实验室之间进行比较的最低SNP标记集达成共识。带有细胞系SNP基因分型数据的文章使用了不同的标记集,使得数据集之间无法进行比较。由于潜在的隐私问题,最小标记集对于STR和SNP位点都很重要。SNP基因分型可用于分析建立细胞系的供体的谱系、祖先、表型和疾病易感性。尽管这种风险适用于所有的基因组数据,但是风险的程度可能会随着共享数据的数量而变化。最小的数据集可以减少每个样本共享的数据量和相关的隐私风险。
SNP基因分型的另一种方法将最小化这种隐私问题。“MinION sketching”使用了一种便携式DNA测序设备,它可以连接到任何一台带有USB端口的电脑上。对测试样本进行低覆盖率的鸟枪法测序,并将SNP变异与参考样本的序列数据进行比较以寻找匹配。该方法不需要对共享的SNP标记集达成一致。使用贝叶斯算法检测测试样本和参考样本之间的公共SNP标记。可以根据私有数据库查询随机的DNA标记集,从而减少了数据共享的需要。MinION sketching提供了一种快速和紧凑的方法,研究人员可以进行内部验证;但是,要广泛采用这种方法,就需要有适当的参考样本数据库和进一步的验证。任何新的检测方法必须能够区分不同来源的细胞系;区分具有共同供体来源的细胞系;在存在遗传不稳定性、长时间的传代、等位基因不平衡和多变的培养条件下仍然适用。
蛋白组学方法在细胞株检测中的新机遇
细胞系常被用作特定组织或疾病的模型。如果当错误识别涉及来自不同组织类型的细胞时,组织起源和疾病诊断可能与细胞系调查高度相关。如果没有参考样本,组织起源可能是唯一可用来确定差异的线索。例如U-87 MG,我们知道这个广泛使用的细胞系库是错误识别的,但这个细胞系的来源还不清楚。迄今为止发表的唯一与组织起源有关的线索——表达谱显示,细胞可能来自中枢神经系统。
当使用表达谱分析时,大多数细胞系是其原始组织的代表。例如,NCI-60的51个细胞系与报道的起源肿瘤一致。也有少数细胞系被发现不能代表它们的原始组织。组织特异性或疾病特异性标志物可能随传代而丢失或获得;非典型标记可能通过转化或其他机制出现。例如,MDAMB- 435“乳腺”细胞的表达谱与黑色素瘤细胞系类似,但在某些培养条件下他也可以表达乳腺特异性和上皮特异性标记物。STR分析结果显示,MDA-MB-435细胞系并非来自最初报道的乳腺,而是黑素瘤细胞系M14的一个错误的衍生物。在决定组织来源之前,细胞系必须经过详细的鉴定和评估。大数据集更可能可靠,相比之下,“组织特异性”标记在细胞系中的表达可能有所不同。细胞培养也必须使用受控的培养条件,以尽量减少变化。
尽管存在这些挑战,转录组学和蛋白质组学分析的出现为细胞系鉴定提供了新的机会。质谱可用于细胞系的种类测定和快速鉴定。反相蛋白测定法已被用于评估700多个细胞系中与癌症相关的蛋白,使用该方法更关注信号通路的突变。当同一细胞系在不同的培养条件下传代和生长时,蛋白质组数据是否会发生变化还有待观察。初步验证工作表明,物种判定不受培养基或细胞密度的影响。
对全蛋白质组的分析对细胞系鉴定具有特殊的前景。所有理论质谱的连续窗口获取(SWATH)以独立于数据的方式分析蛋白质组,从而产生一个单一的、永久性的数字文件,可以在数据获取之后的任何时间进行更深入的研究。目前正在进行的工作是在高通量的工作流程中使用SWATH,建立来自肿瘤活检的数据库。这项工作很可能在专门的机构中进行,使质谱分析能够在精确控制的条件下进行。但是,可以在任何位置访问SWATH文件以进行数据挖掘,从而实现癌症的个性化管理。提高癌症管理的精确性将有利于细胞系,无论是通过直接的细胞系组的分析,还是通过间接的改进组织类型和疾病诊断分类。
总结
细胞系是有价值的模型,但它们持续的增殖和延长的历史意味着它们可能有不确定的起源。错误的细胞系可以通过STR基因分型或其他分子技术分辨出来。新的分子技术为细胞系鉴定提供了令人兴奋的机会。然而,同样的基本原则适用于任何技术。必须评估种源信息和身份验证数据,寻找差异,并考虑这些差异是否可以用已知的培养差异来解释。在某些情况下,证据不足以决定一个细胞系是真实的还是错误识别的,需要额外的样本或数据。细胞系信息、参考样本和分子应用都是必要的,以确保细胞系是诊断化验、治疗筛选和生物医学研究的有效模型。
网友评论