使用Cellranger vdj 流程能得到一个网页版的报告,如上图样式.
今天将对这几个指标进行解释说明,用于后续troubleshooting。
问题:在10X V(D)J 数据中使用哪些指标来troubleshooting?
V(D)J网页报告提供了一些关键的指标,能够帮助排除V(D)J实验中的某些问题,由于GEX和V(D)J数据集之间的细胞富集差而产生。可以帮助解决这类问题。
指标1 :Estimated number of cells
描述和限制:
细胞数量,barcode的数量估计与表达靶向V(D)J转录本的细胞有关。这个值取决于预期的T/B细胞数量。
失败的原因:
V(D)J细胞数量低于或高于预期可能是由于样本质量差、文库质量差或测序质量差。
-
如果细胞数量过高,建议cellranger multi删除背景*。
-
如果细胞数量过低,考虑查看
Reads mapped to any V(D)J gene
的值(如下),并联系10x Genomics技术支持,获得文库富集溯源。
指标2 :Reads mapped to any V(D)J gene
描述和限制:
部分或全部read比对到V(D)J基因片段的比例。
- Ideal > 50% ; > 40% is an acceptable limit.
失败的原因:
这可能与样本中B细胞或T细胞的比例有关。低比例的样本可能只有有限数量的B细胞或T细胞。这些样品可能需要富集,请参考这篇文章中的方法。
- 在一些其他的情况下,这可能是由于化学试剂用错或reference使用错误。
指标3 :Cells with productive V(D)J spanning pair
描述和限制:
被称为是细胞的barcode的比例,每个受体对至少有一个链是productive contig(参考引申问题)。
- Ideal > 30% ; >20% is an acceptable limit
【引申问题】什么是productive contig呢?
使用cellranger vdj
在contig_annotations.csv
(或者filtered_contig_annotations.csv
)结果中会有一列:Productive
,
一个 productive contig必须满足下列条件:
-
是跨过了V到J的区域,起始密码子在leader region。
-
是否有一个带有起始密码子的可检测的CDR3区域
-
在V-J跨越区域中没有停止密码子。
失败的原因:
较低的值可能表明样品质量较差,富集较差或低,覆盖较差或测序深度较低。捕获或表达单链可能有如下几个原因(参考引申问题)。
- 在极少数情况下,也有可能是化学试剂用错导致值低。
【引申问题】:为什么有些clonotype只有1个productive 链呢?
每个细胞都有一个TRA和TRB链,为什么有些clonotype只有1个productive 链呢?回答:Cell Ranger 流程没有过滤掉只有1条链的contig。有很多原因:
-
没有检测到mRNA转录本: 缺失链的mRNA转录本可能已经存在于细胞中,但没有被检测到。对于低表达的转录本尤其如此。
-
没有contig组装: 一些被检测到的转录本可能无法组装成contig。
-
未被标记为有效: 一些组装的contigs可能无法被标记为有效contig。过滤后的结果中只显示productive链。在all_contig_annotations.csv文件中能查找未被标记为有效的contig。
-
在极少数情况下,细胞可能只表达一条链。
指标4 :Median UMIs per cell for V(D)J gene
描述和限制:
每个细胞中分配给VDJ 基因{每条链}的contig的UMI数的中位数(链是指TRA/TRB或IGH/IGK/IGL)。
- Ideal >0 UMIs
失败的原因:
中位数越高,表明对该链表达的支持越高。
中位数为0的UMI往往表明TCR/BCR链表达较差,样品质量较差,或在某些情况下富集较差/低。在极少数情况下,缺失的链可能反映了样本的生物学特性。
尽管表达水平与细胞类型有关,但通常情况下TRA转录本的表达水平要低于TRB转录本。如果有GEX数据,可以使用Loupe文件来识别T/B细胞的表达,步骤参考这里。
指标5:Barcode Rank plot
描述和限制:
根据实验,评估观察到的barcode被称为细胞的比例和每个条形码的UMI计数范围。
Y轴是UMI 数,是在x轴上映射到每个barcode的过滤过的UMI数。图的颜色基于与细胞相关的barcode的局部密度。
失败的原因:
在rank plot中出现的凸起可以表明一组高表达的细胞类型。例如,在Ig数据的web_summary中,浆细胞可以导致这种表型。
在下面的另一个例子中,V(D)J库中的细胞太少了,我们可以看到蓝色的线尾随到UMI很低的barcode中。
指标6:Valid Barcodes
描述和限制:
barcode校正后与白名单匹配的reads的比例。
-
Ideal > 85%
-
Acceptable is >75%
失败的原因:
如果这项出现有效barcode低的警告,可能发生以下几种原因:
-
通常与样品质量差、测序质量差或测序参数不当有关。
-
在极少数情况下,这一警告可能是由于SPRI清洗过程中乙醇洗涤液去除不完全,可能导致不需要的产品放大,有时会导致有效barcode降低。请参考这篇文章。
指标7:Top clonotype histogram
描述和限制:
histogram显示了样本中10个丰度最高的克隆型所占的细胞比例。在好的样本中,大多数克隆型会同时拥有两条链。
失败的原因:
如果注意到一个多链的大克隆型部分,这是极有可能是ambient RNA(*下文解释)。Cell Ranger v5及以上版本实现了一种更好的克隆类型分组算法。在多个克隆型中存在相同的链也表示为 ambient RNA。
*其他注意事项:10X的算法试图过滤掉含有ambient RNA的乳细胞受到压力或有一些链泄漏的barcode。如果有GEX文库,这可以从高表达的核糖体(RPS/RPL)、线粒体(MT-/)和MALAT1基因(死亡和死亡细胞的关键特征)中确定。如果适用,请参阅关于死细胞去除方案的技术说明。
网友评论