美文网首页肿瘤基因组
成人T细胞急性淋巴细胞白血病复发的演变

成人T细胞急性淋巴细胞白血病复发的演变

作者: 亦是旅人呐 | 来源:发表于2022-04-13 11:57 被阅读0次

    Sentís I, Gonzalez S, Genescà E, et al. The evolution of relapse of adult T cell acute lymphoblastic leukemia. Genome Biol. 2020;21(1):284. Published 2020 Nov 23. doi:10.1186/s13059-020-02192-z


    摘要

    背景:成人T细胞急性淋巴细胞白血病(T-ALL)是一种罕见的疾病,其发病率不到百万分之十。与更为普遍的同类别儿童恶性肿瘤相比,对其研究较少。和儿童相比,成人患者复发的比例更高。因此,有必要研究成人T-ALL病例复发的机制。

    结果:我们分析了19例成人原发性T-ALL患者和相应复发恶性肿瘤的全基因组体细胞突变,并与238例儿童和年轻成人ALL病例进行比较,分析其治疗后的演变。我们比较了原发性和复发性成人T-ALL与儿科患者的突变过程和驱动突变。对白血病细胞时钟样突变的精确估计表明,复发克隆的出现发生在原发性T-ALL诊断前几个月。具体而言,通过将白血病患者增加一倍,我们发现在19名患者中至少有14名患者在诊断时出现复发性白血病患者,包括一个以上但不到108个的母细胞。通过模拟,我们发现所有患者的复发似乎都是由基因突变引起的。

    结论:在成人T-ALL病例中,具有耐药遗传机制的白血病细胞群体的早期出现构成了治疗的挑战。因此,提高恶性肿瘤的早期发现率是防止其复发的关键。

    关键词:T-ALL,成人急性淋巴细胞白血病,治疗中的T-ALL演变,白血病复发演变,ALL复发


    结论

    所有的结果表明,在这个队列的T-ALL患者中,复发是由诊断前几个月在原细胞群中出现的基因突变驱动的,在治疗开始时产生多达几百万个细胞的耐药亚克隆。因此,在治疗后,这种亚克隆在复发时支配T-ALL人群。


    个人关注方法,感兴趣可查看结果和讨论


    方法

    内部队列选择和样本收集

    作为PETHEMA (Programa Español de Tratamientos en Hematología)试验的一部分(患者16除外),根据治疗方案(LAL-07OLD, ALL-HR-03, LAL-AR-2011)收集15年期间患有T细胞急性淋巴细胞白血病的成人(≥18岁)样本。患者已签署相应的协议同意书。队列临床数据在附加文件2:图S3和附加文件1:表S1中指定。每个病人采集三个样本:一个是在诊断时采集的(初级),另一个是在治疗期间淋巴母细胞的百分比减少时采集的(缓解),最后一个是在几个月后白血病复发时采集的(复发)。

    全基因组测序

    用KAPA HyperPrep试剂盒(Roche KAPA Biosystems)进行一些修饰,制备了用于全基因组测序的短插入对端文库。简而言之,在可用材料的作用下,0.1至1.0微克基因组DNA在Covaris™LE220-Plus (Covaris)上被剪切。用agcourt AMPure XP beads (agcourt, Beckman Coulter)对片段DNA进行进一步大小选择,片段大小为220-550 bp。选择大小的基因组DNA片段进行末端修复、腺苷化,并连接到具有Unique Dual匹配索引的Illumina平台兼容适配器或具有独特分子标识符的Unique Dual索引(Integrated DNA Technologies)。文库在安捷伦2100生物分析仪上进行质量控制,DNA 7500分析大小,并使用KAPA Library Quantification Kit Illumina®平台(罗氏KAPA生物系统公司)的定量PCR来估计浓度。为了获得足够数量的文库用于测序,低输入文库(0.1-0.2μg)需要使用2倍KAPA- hifi HS Ready Mix和10X KAPA引物混合(Roche KAPA Biosystems),用5个PCR循环扩增连接产物。

    文库在HiSeq 4000或NovaSeq 6000 (Illumina)上测序,配对读长为2 × 151 bp。使用制造商的实时分析软件(HiSeq 4000 RTA 2.7.7或NovaSeq 6000 RTA 3.3.3)处理运行的图像分析、基本调用和质量评分。

    公共领域的所有队列分析

    我们下载了EGA和dbGap的公开全基因组和全外显子组测序数据。我们包括来自圣犹大儿童研究医院的EGAD00001001052和EGAD00001001432 EGA接入码相关的样本。我们只使用了我们可以从相关出版物中恢复临床信息的样本。我们从dbGap下载了Oshima et al.的DNA测序数据,登录代码为phs001072.v1.p1。每个样本收集的临床信息的队列信息总结在附加文件1:表S2。

    对于一些样本,我们无法找到有关患者性别的信息。在这些病例中,我们从每个患者的正常样本BAM推断。,我们应用推理如下:(1)我们确定病人的平均覆盖率是一个女性如果染色体X大于常染色体的最小平均保险染色体和(2)的平均覆盖率染色体Y是小于10倍的平均覆盖率的常染色体染色体样本。

    附加file1中的所有示例:表S2都使用相同的管道进行了分析(有关详细信息,请参阅下面一节:“对齐和变体调用”)。然而,为了将T-ALL成人队列与其他T-ALL队列与治疗前和治疗后样本进行比较,我们仅在图2a 和 b中添加了Li et al.补充材料中报道的突变。

    alignment和变体调用

    alignment,SNV,small InDels
    我们使用Sarek pipeline v2.2.1对突变(SNVs和小InDels)进行了比对和调用。该工作流从原始FASTQ应用GATK所说的“最佳实践”步骤执行对齐。我们使用biobambam v2.0.72将下载的BAMs从公共存储库转换为FASTQ,并将它们用作管道的输入。我们使用在Sarek中实现的Strelka调用程序来生成突变调用。只有T-ALL成人队列与CNAG的GEMmapper v3.6一致,但呼叫是用Strelka完成的。突变调用使用原发和复发作为肿瘤样本,缓解作为“正常”样本。变异已经用VEP v.92标记,并使用gnomAD r2.0.1来获得潜在多态性的群体频率。

    CNV
    我们使用FACETS v0.5.6[65]调用WGS和WES样本中的拷贝数变化。根据facet文档,我们首先使用snp-pile创建了它的输入,它估算了常见的SNPs,并在核苷酸分辨率上进行了参考和替代读取计数。我们使用推荐的参数运行了snp-pileup,除了——min-read-counts被设置为10,0。我们在文档中为WES运行FACETS,但将preProcSample函数参数设置为cval = 15, ndepth = 5, snp.nbhd = 500和procSample函数参数cval = 80, min. net = 20。类似地,我们将WGS数据作为preProcSample (snp)运行facet。nbhd = 5000, ndepth = 5, cval = 75)和procSample (cval = 800, min. nnet = 25)。

    SV
    我们运行了Delly v0.7.9来检测重复、倒置和易位。首先,我们运行call功能模块,然后是Delly的filter函数。调用函数的map-quality参数被设置为20,我们还通过--exclude参数传递了Delly的github中提供的一个文件,其中包含要排除的区域。filter函数使用以下参数运行: --filter体细胞--minsize 0(期望重复设置为100)--qual-tra 0.75--altaf 0.1。

    过滤步骤

    SNVs和InDels
    从Strelka的VCF输出中,我们保留了FILTER列中标记为PASS和DP的调用。我们恢复了原发和复发之间的共同突变,这些突变不是PASS或DP,而是存在于原始VCF中。这对于一些队列中只有配对样本(原发性和缓解期)的患者是不可能的。此外,我们通过使用Samtools v1.4.1检查连续SNV位置来检查缺失的DNVs(二核苷酸变异),并在需要时更改参考和替代。一旦变异被VEP注释,我们就在规范转录本中提取变异。如果同一变体预测的结果类型不止一种,根据VEP,我们选择最具破坏性(更大的影响)的一种。我们还根据增加的gnomAD_AF列过滤掉了种群频率大于0.01的突变。最后,我们放弃了总深度为5次读取的低覆盖变体。关于应用于SNV的过滤器的详细信息,请参阅附加文件3。

    CNV
    我们丢弃了可靠性较低的变量。据我们所知,这些片段在细胞部分和FACETS输出的小等位基因拷贝数列中都有NAs,这表明该区域没有足够数量的杂合子SNPs来指导良好的估计。

    SV
    我们使用svtools v0.4.0中的bcftobedpe函数将vcf转换为bedpe格式,并在FILTER列中保留带有PASS标志的变体。我们通过在UCSC中对断点(BND)及其侧翼区域进行BLAT,手动检查以前文献中未描述的复发SV,并丢弃那些Alu区域或可映射到基因组许多部分的区域。

    纯度和克隆性估计

    根据变异等位基因频率(VAF)分布,我们推断样本的纯度如下。由于样本的整体倍性大多在2(二倍体)左右,我们计算了每个突变的VAF乘以CNV的密度图作为CCF的粗略代理,并确定了纯度作为最大值点。我们用推断的纯度重新计算了CCF,并拟合了beta二项分布(来自scipy v1.4.1 python包的betabinom函数)。对于每一个突变,我们从中得到一个概率,并根据0.01的阈值将它们分类为克隆或亚克隆(分别高于或低于它)。对于PAT16,在检查原始和复发样本中的CCF分布时,我们检测到一个更复杂的克隆结构,因此使用0.05的阈值来更清楚地分类突变的克隆性。

    特征分析

    t根据分析的背景进行了多次deconstructSigs v.1.8.0运行。首先,按照Maura等人提出的指导方针,我们纳入了用于拟合初级样本的所有有意义的血液学描述的signatures(见附加文件2:图S1)。从这些信号中,我们选择了我们认为在队列分析的至少一名患者的原发性白血病中具有实质性活性的信号,并使用它们重新进行deconstructSigs(见图1c)。其次,我们将T-ALL成人样本重新拟合,只使用那些呈现活动的特征(SBS1, SBS5, SBS18),以更好地估计它们在图3a中的贡献。最后,我们对原发和复发样本拟合了已知的治疗特征,看看这些特征是否在复发的突变谱中有任何贡献。在本例中,我们纳入了Signature 32 (SBS32), COSMIC中提出的病原学建议预先使用硫唑嘌呤治疗。成人T-ALL患者尚未直接接受该化合物治疗,但已知硫唑嘌呤代谢为6-巯基嘌呤,用于接受治疗的维持阶段(见附加文件2:Figs)。S3和S6)。除了SBS32,我们还包括了Li等人中最近提取的两个治疗signatures SBSA_new和SBSB_new。他们将硫嘌呤的用法分配给SBSB_new签名,因此我们决定将其包括在内。关于SBSA_new没有太多的说法,但是由于儿童和成人ALL患者接受了类似的治疗,我们决定在拟合分析中进行尝试。在所有情况下,我们将deconstructSigs的signatures截止参数设置为0.1。

    所有亚型驱动基因的聚类

    在图1d上构建树状图所计算的距离基于每个队列中每个突变基因的患者数量分布之间的JensenShannon分歧度量。我们只考虑了至少三名患者的突变基因。

    降维

    我们使用了在python包UMAP learn v0.3.10中实现的统一流形近似和投影(UMAP)。将突变谱(96维代表每个三核苷酸通道)简化为二维,局部邻域(n_邻域)大小为20,最小距离(min_dist)为0.2。

    识别所有driver突变

    驱动基因发现
    我们已经为SNV和小型INDEL运行了IntOGen管道(https://www.intogen.org/search)在本地为每个定义的队列(见上文)。对于每一项产出,我们的工作如下。首先,我们丢弃了第3和第4 tier中所有不在癌症基因普查(CGC)中的基因。第二,我们已经丢弃了所有tier中被定义为潜在人工制品的所有基因(请参阅中的基因列表)https://bitbucket.org/intogen/intogen-plus/src/master/extra/data/artifacts.json)。第三,我们手动检查了剩余的基因,并定义了一个潜在假阳性(FP)列表。从这个可疑基因列表中,我们已经丢弃了癌细胞中不存在的基因。根据报道的出版物,对于癌症中存在的其他FP候选基因,我们已经确定了它们作为白血病驱动基因的可信度。除此之外,我们还在PubMed中手动搜索该基因与造血肿瘤的癌变的任何其他缺失关系。

    所有癌症基因的文献列表

    我们总共定义了3个已知驱动基因列表:

    • 具有SNV/InDels突变的基因
    • 受CNV影响的基因
    • 受SV影响的基因,已知其驱动所有

    变体注释

    对于SNV和INDEL,我们已经根据VEP定义了所有具有影响结果类型的预测蛋白(在标准转录本中)的突变作为潜在驱动因素(transcript_ablation, splice_acceptor_variant, splice_donor_variant, stop_gained, frameshift_variant, stop_lost, start_lost, transcript_amplification, inframe_insertion, inframe_deletion, missense_variant, protein_altering_variant, splice_region_variant, incomplete_terminal_codon_variant, start_retained_variant, stop_retained_variant)列表中的癌症基因定义为驱动基因发现结果与SNV和INDEL的策展文献列表的组合。

    对于CNV和SV,我们已经将我们发现的改变标记为“已知驱动因素”(分别包含在策划的文献列表中),或者如果它影响所有列表中与白血病相关的任何癌症基因,则标记为“感兴趣的基因改变”。在CNV影响感兴趣的基因的情况下,我们认为作为候选驱动器的致癌基因被完全放大和肿瘤抑制因子的任何删除的影响。通过绘制BND基因组坐标在带注释的“经典”Giemsa细胞带内的位置来报告结果。

    我们还通过一些有意义的信息,如蛋白质家族、生物过程或途径,对影响它们分组的基因进行了注释。

    divergence时间的估计
    divergence n. 差异;分歧;分散,发散;(气流或海洋的)分开处

    考虑到T-ALL样本的突变负担与健康造血细胞的预期突变数量之间的差异,很明显,突变率出现了一些加速(图4a)。此外,健康细胞和T-ALL的年龄和特征5之间的回归显示出紧密的斜率(12.21)∓1.24对20.61∓6.58,参见图4a和附加文件2:图S7),但截距更高(22.35∓45.53比397.4∓251.81,参见图4a和附加文件2:图S7)。我们假设这些斜率上的相似性和交叉点上的差异可以用肿瘤发生过程中的晚期加速来解释,这种加速以相似的方式影响不同的T-ALL样本。

    基于信号5的肿瘤发生加速假设,我们建立了两个不同的模型,分别代表估计的上下限:(I)突变率的变化是一个一次性的、不连续的事件,在原发性和复发性之间共享;(II)在肿瘤的整个生命周期中,突变率的变化呈线性增长。在这两种情况下,突变率只能增加,并且初级克隆和复发克隆都处于相同的突变过程中。就divergence时间而言,常数模型是最保守的,显示了无性系之间divergence的最早时间,而线性模型是产生较大divergence时间的模型。基于N个加速步骤的其余模型将在前面描述的范围内生成估计值。

    我们建立了120个不同的时间点,这些时间点在诊断前的10年内间隔很短:我们称之为“加速时间”,因为它们必然代表突变率首次偏离中性、时钟样行为的时间点。对于每个加速时间,我们首先计算一个函数,为每个时间点分配一个合理的突变率,与常数或线性模型一致。为此,我们拟合了突变曲线,以在这两个事件之间的中间时间点t通过原发性和复发性N(t)的平均突变数。更具体地说,必须满足以下条件:

    其中μ和r的值必须根据所用模型确定。现在,我们对突变曲线进行了100次随机模拟,从β二项分布中随机抽取0或1个突变,间隔为1天,只有在每天的突变率超过1的情况下,才使用更小的间隔。因此,当相关参数ρ=0时,平均参数μ(t)可能随时间变化(线性模型)。0002,根据Osorio等人所述健康造血干细胞上观察到的分散情况进行估计,保持不变。因此,在时间点模拟的突变数量递归定义为:

    其中μ(tm)是μ(常数模型)或log(1r)·N(tm−1) (线性模型)。由于每个假设产生的100条随机曲线(由加速时间和突变率模型确定)减少了原发和复发的时间水平,他们对所观察到的疾病的可能突变数量分布进行了预测,从而得出假设很好地解释了原发和复发时所观察到的突变数量的可能性。因此,加速时间和突变率模型的每个组合都有一个相关的先验可能性。我们使用队列中成功率(可能性)较高的参数组合计算Bayes后验分布,然后使用这些参数选择最合理的模型作为观察的基础,然后提供一组由可能性加权的合理发散时间。为了避免由于低似然模拟的长尾导致divergence时间估计的偏差,仅选择了更可能的场景(10%百分位)。

    倍增时间和淋巴母细胞种群估计

    T细胞淋巴母细胞群的倍增时间是按照Li等人中类似的方法估算的。我们假设成纤维细胞的生长符合逻辑模型,即。ET淋巴细胞群所代表的群体分数是时间的函数,其形式为逻辑函数:

    其中是logistic模型的参数,假设以标准时间单位给出,使得T淋巴细胞亚群在时间T=0时达到总人口的50%。

    因此,倍增时间估计需要对我们的数据拟合逻辑模型,即,提供参数的估计值a。

    我们的方法旨在提供一个估计值,以纠正患者数据中提供的时间注释之间可能存在的不一致。我们的一般假设是,当将标准时间与T淋巴细胞群测量值相关联时,每个患者都会引入一些误差ΔTi,这主要是因为难以估计初始T淋巴细胞群分数较低的成对数据点的初始时间。逻辑模型的标准拟合优度标准由交叉熵损失给出:

    其中,y和y`是观察(和预测)的数据样本。

    我们的方法旨在通过最小化以下交叉熵损失,同时估计误差Δti和参数a:

    其中,每个患者的Pi值yi, yi,0和yi,1为起始值(分别为总体分数和值ti,0和ti,1为初始值(分别为最后一个))。

    交叉熵的最小化是在Python中使用scipy的函数“minimize”实现的。优化模块。为了实现更稳健的最小化,我们使用不同的随机生成的初始值运行了几次。

    在估计倍增时间TD后,我们继续计算诊断时间内的细胞数Nd,作为诊断和复发之间的时间Δt的函数:

    其中NB是成人骨髓细胞总数的估计值(~7.5×1011个细胞),f是活检淋巴母细胞的频率。

    MARCA4突变的数字PCR分析

    使用制造商的程序和试剂(ThermoFisher Scientific),在QuantStudio 3D dPCR系统上进行dPCR分析。使用QuantStudio 3D分析套件软件在线评估数据分析和芯片质量。

    复发情景模拟

    为了了解在非治疗选择性方案下,我们在原发性和复发性观察中获得的可能性,我们使用Wright-Fisher模型进行了几次模拟(https://github.com/gerstung-lab/clonex)。

    首先,我们根据对初级样本的观察建立了一组参数,在10-6个细胞的群体中,突变率为10-8,driver和passenger位置总数分别为100和150,000。因此,经过5000代之后,该群体已经确定了一些驱动突变,范围从3到8(平均5.2)和122到753(平均505.8)个乘客。

    其次,我们从原代种群中随机移除9 × 104 ~ 106个细胞,以模拟瓶颈效应。由此产生的种群已经增长了20代、40代和60代,涵盖了我们对观测数据集的估计(10% CI 10.83-37.89代)。

    最后,我们比较了在观察到的和模拟的非耐药情况下,这些变异的原发性VAF分布与复发时VAF高于90%(被认为是固定突变)的VAF分布。

    由于在我们的模拟中缺乏对低VAF变异的固定,在前面描述的策略下执行了两个额外的场景:(I)非抗性模拟,将适应度提高到0.1(认为是高适应度),以允许更快的固定率;(II)抗性场景,其中瓶颈是选择所有共享低群体频率乘客突变(定义为抗性突变)的细胞。


    相关文章

      网友评论

        本文标题:成人T细胞急性淋巴细胞白血病复发的演变

        本文链接:https://www.haomeiwen.com/subject/omymzltx.html