美文网首页单细胞测序分析学习专题
Cell Ranger 5.0系列之一——Cell Ranger

Cell Ranger 5.0系列之一——Cell Ranger

作者: 锦官与长安 | 来源:发表于2020-11-29 13:27 被阅读0次

2020.11.19 Cell Ranger更新到了5.0版本。官网的更新说明包括以下三个部分:

一、关于基因表达和Feature Barcode分析的更新

Cell Ranger 5.0 添加了--no -bam选项,此选项不生成基因表达和和Feature Barcode数据集的比对BAM文件。也就是说,如果不需要这些BAM文件,使用此选项可以显著提高流程运行速度。

• Cell Ranger 5.0添加了已改进的蛋白质聚合检测与过滤算法。通过直接使用蛋白质计数,更多的aggregate GEM在细胞识别之前就被检测并过滤掉。

• Cell Ranger 5.0 添加了--include -introns选项,用于计数3‘和5’基因表达产物的内含子reads。使用前体mRNA参考序列以计数内含子reads的方法现已弃用。

  Cell Ranger 5.0 的--include -introns选项,通过使用STAR比对reads到正常参考转录组来实现。比对结束后,与比对到外显子的reads类似,那些比对到内含子的reads被注释和计数。此前,Cell Ranger 4.0及之前的版本使用前体mRNA参考方法,涉及比对到修正的参考转录组,将内含子区域视为外显子。使用前体mRNA参考序列与使用正常参考序列,这两种方法通过STAR比对产生的read 比对产物略有不同。这两种方法的差别导致UMI计数有较小的整体差异。

•修正上游IRLBA,以修正在罕见情形下的错误。

•在某些Linux版本中,NFS在文件拷贝过程中将会出现错误。对于受影响的源代码,我们已实施替代方案。

二、关于基因表达、Feature Barcode与VDJ分析的更新

• Cell Ranger 5.0 添加了multi pipeline,可以同时处理来自一个GEM 孔的5‘基因表达、Feature Barcode(细胞表面蛋白或抗原)以及VDJ文库的任意组合。multi pipeline 使用由基因表达提供的细胞识别,以提升来自VDJ文库的细胞识别。

•在web summary中添加了一个名为“Number of Short Reads Skipped”的参数,表示被忽略的read pairs的总数,因它们不能满足最短长度的条件。

三、关于VDJ分析的更新

1. Cell Ranger 5.0引入了一种新的克隆型分组算法,估算来自独立的、完整重排的共享起源的细胞群,并且推断数据集中每个个体的V基因生殖系序列。在之前的版本中(4.0及以下),算法仅根据生产性的CDR3核苷酸序列对细胞进行分组。因此,每当一个真正的克隆型具有CDR3突变时,那些真正精确的亚克隆型将被此算法识别为多种不同的克隆。

CellRanger 4.0及更早版本中的克隆型分组方法,根据独特CDR3序列来分组将导致B细胞克隆的不准确。此外,单链的克隆型被报告为独立的克隆型,这将导致对给定克隆型的过多或过少的估计。新的克隆型算法提高了特异性、敏感性和整体精确性,因其计算了VDJ转录本以及VDJ连接区的突变。此算法也对T细胞和B细胞的单链克隆型与正确的完整配对克隆型进行了合并。额外的细胞过滤在克隆型分组中被采用,以利于提高数据质量。

2.VDJ输出文件的变化

在5.0版本中,以下输出文件被移除:consensus.fastq 和consensus_annotations.json

在5.0版本中,添加了下列输出文件:

Contig

info binary file,此文件将被用作整合VDJ样本的输入文件。

Donorreference fasta

在clonotypes.csv文件中添加了两列,用于展示iNKT(invariant natural killer T

cells)和MAIT(mucosal-associated invariant T cells)

文件filtered_contig_annotations.csv,filtered_contig.fasta, filtered_contig.fastq现在仅包括来自细胞条形码的生产性contig数据。

一些新的字段被加入consensus_annotations.csv文件:v_start, v_end, v_end_ref, j_start, j_start_ref, j_end, cdr3_start, cdr3_end

3.推荐的用于人和鼠的VDJ参考序列包已被更新至5.0版。VDJ参考序列的更新如下所示:

替换了IGKV2D-40其引导序列有删节。

删除IGKV2-18,可能为假基因

删除IGLV5-48,其右侧有删节

删除TRBV21-1,有多个移码

添加 IGHV4-30-4

添加IGKV1-NL1

添加IGHV4-38-2

删除TRAV23,有移码

删除IGHG2B稳定区基因的第一个碱基

根据经验数据,在IGKV12-89插入六个碱基。

修正IGHV8-9,其氨基酸序列将FWR3区末端经典的C显示为S。这与10X数据一致。

添加IGKV2-109

添加IGKV4-56

添加IGHV1-2

4.cellranger aggr现在可以整合VDJ数据,允许用户在整合数据中重新进行VDJ克隆型分组。

5.  cellranger vdj中取消了--force-cells

从CellRanger 3.1起,由于VDJ assembler的过滤,VDJ流程中的--force-cells 并未像期望的那样起作用。用户仅能对通过assembler组合过滤的条形码数使用--force-cells

这使得用户不可能增加recovered细胞的数量。相反,使用--force-cells只能减少recovered细胞的数量。这与cellranger count流程不同。

因这一特殊的变量容易被用户所误解,而且需求量不大,我们决定取消。在Cell Ranger 5.0中, --force-cells 仅作为一个不公开的选项。这也使得那些常用它的用户最终弃用此功能。

不足之处欢迎指正。

相关文章

网友评论

    本文标题:Cell Ranger 5.0系列之一——Cell Ranger

    本文链接:https://www.haomeiwen.com/subject/ajckwktx.html