题记:
Cell barcode的加入就是了识别不同的细胞,为什么分析中还要加入real cell barcode的识别过程,我自己check了一个样,比如我们烟草的一个样品,我统计了一下不同cell barcode的数量可能在6794880,后期利用既定到的基因数目或者表达的基因数目去掉低quality的cell我能理解。在之前也有一步filter,进行background和real cell的判定,cell barcode不是测序的时候加上去的识别码,怎么还有background一说。
就拿10X为例:
液滴型scRNA-seq方法中只有一小部分的液滴包含珠状物和一个完整细胞。然而生物实验不会那么理想,有些RNA会从死细胞或破损细胞中漏出来。所以没有完整细胞的液滴有可能捕获周围环境游离出的少了RNA并且走完测序环节出现在最终测序结果中。液滴大小、扩增效率和测序环节中的波动会导致”背景”和真实细胞最终获得的文库大小变化很大,使得区分哪些文库来源于背景哪些来源于真实细胞变得复杂。
所以其实cell QC的目标和目的就变得:
目标:
1. 筛选数据以仅包括高质量的真实细胞,以便在对细胞进行聚类时,更容易识别不同的细胞类型。
2. 识别任何失败的样本并尝试挽救数据或从分析中删除,此外还试图了解样本失败的原因。
挑战:
1. 从不太复杂的细胞(不太复杂只细胞中转录本种类构成)中划定质量较差的细胞。所以比较复杂的点是如何区分不太真实的细胞和RNA量比较小的细胞。
2. 选择合适的阈值进行过滤,保留高质量的细胞而不去除生物学相关的细胞类型。
有的人认为真实的细胞往往含有较多的RNA,因此测序结果里面应该含有比较多的UMI。所以大多数方法使用每个barcode对应的总分子数(如果是UMI)或总reads数的分布来进行区分。Zhang et al (Massively parallel digital transcriptional profiling of single cells) 直接过滤掉低于总数99%的。Macosko (Highly parallel genome-wide expression profiling of individuals cells using nanoliter droplets)寻找一个”break point”区分来自于真实细胞的较大的文库和来自于背景的较小的文库,。
一般找寻每个条形码对应的分子数突然下降的拐点。
barcode排序图EmptyDrops(EmptyDrops:distinguishing cells from empty droplets in droplet-based single cell RNA sequencing data)则根据观察到的每个液滴的表达谱与周围溶液的表达谱来区分空液滴(empty droplets,只含溶液中RNA)和含细胞的液滴。
barcode Rank plotCell Ranger 3.0引入了一种改进的细胞计数算法,该算法能够更好地识别低RNA含量的细胞群体,特别是当低RNA含量的细胞与高RNA含量的细胞混合时。该算法分为两步:
在第一步中,使用之前的Cell Ranger细胞计数算法识别高RNA含量细胞的主要模式,使用基于每个barcode的UMI总数的cutoff值。Cell Ranger将期望捕获的细胞数量N作为输入(see --expect-cells)。然后将barcodes按照各自的UMI总数由高到低进行排序,取前N个UMI数值的99%分位数为最大估算UMI总数(m),将UMI数目超过m/10的barcodes用于细胞计数。
在第二步中,选择一组具有低UMI计数的barcode,这些barcode可能表示“空的”GEM分区,建立RNA图谱背景模型。利用Simple Good-Turing smoothing平滑算法,对典型空GEM集合中未观测到的基因进行非零模型估计。最后,将第一步中未作为细胞计数的barcode RNA图谱与背景模型进行比较,其RNA谱与背景模型存在较大差异的barcode用于细胞计数。
cellranger cell QC但是具体哪个方法好,我也不是很确定,只能拿各个方法去试一下。下面是emptydrops文章中的测试,说自己的方法比其它的好。
集中方法的对比
网友评论