Cellranger原理介绍（上）

作者: Amor唐 | 来源:发表于2021-03-10 12:36 被阅读0次

Cell Ranger 软件是 10X genomics 官方提供的配套分析软件，相信使用过 10X genomics 平台进行单细胞转录组测序数据分析的老师们对它一定不陌生，但该软件在进行比对定量时究竟遵循什么样的原则？它是如何识别高质量细胞的？产生的结果各部分如何解读？在这里，我们将使用三篇文章的时间，为大家一一解惑~

Cell Ranger 是什么？

Cell Ranger 是 10X genomics 官方提供的一套针对单细胞 RNA 测序输出结果进行比对、定量、聚类及基因表达分析的分析流程，它包含有与单细胞基因表达分析相关的四个pipelines，分别是：

cellranger mkfastq 流程：其功能为将 Illumina 测序仪产生的 raw base call (BCL) 文件解析成 FASTQ 文件。

cellranger count 流程：其功能为将 cellranger mkfastq 产生的或其他来源的 FASTQ 文件进行比对、过滤、barcode 计数以及 UMI 计数，并可以生成 feature-barcode 定量矩阵，随后确定细胞群并进行基因表达分析。

cellranger aggr 流程：其功能为将多个 cellranger count 产生的数据进行整合、标准化，并可以对整合后的数据进行分析。

cellranger reanalyze 流程：其功能为使用 cellranger count 或 cellranger aggr 产生的表达矩阵重新进行降维、聚类等后续分析。

以上四个pipeline 均将转录组常用比对软件 STAR 封装其中，可以输出带有细胞信息的 BAM、MEX、CSV、HDF5 及 HTML 等格式的结果。

下面，我们着重介绍其进行基因比对的理论模型。

Reads 的修剪

针对 3’ 建库数据的基因表达比对，在比对之前会先对 reads 进行修剪。

cDNA 的全长结构中，在 3’ 和 5’ 端分别带有 poly-A 尾和TSO 序列结构（相对于比较长的 RNA 分子，一部分来自短 RNA 分子的 reads 可能仅包含 TSO 和 poly-A 序列的其中一种）。由于这种低复杂度的非模板序列的存在有可能混淆 reads 的映射，所以在比对之前一般会将 poly-A 尾和 TSO 序列分别从 reads 的 3’ 端和 5’ 端切除，这一步骤有助于提高分析的灵敏度和软件分析的效率。

如何判断 reads 比对到了基因组？

Cell Ranger 中封装了比对软件 STAR，根据转录本的注释文件 GTF 中的注释信息，使用 STAR 来判断reads 是比对到了外显子、内含子还是基因间区上，或者说来判断 reads 是否比对到了基因组上。

当一条 read 至少要有 50% 碱基序列与基因组上的外显子碱基互补配对，认为其比对到了外显子上；若 reads 未比对上外显子但与内含子相交，则认为其比对到了内含子上；否则为比对到了基因间区。若 reads 比对到了一个单一的外显子位点，但同时比对到了一个或多个非外显子位点，则优先认为该 read 比对到了外显子位点，MAPQ 为 255。

如何判断 reads 比对到了转录本？

Cell Ranger 通过检测 reads 比对上的外显子和内含子与转录本的相容性，进一步将 reads 与注释的转录本对齐。如下图所示，reads 根据它们是正义还是反义，以及它们是外显子还是内含子，或者它们的剪接模式是否与该基因相关的转录本注释兼容来分类。

图片

上图中，绿色展示的是基因及基因中所包含的外显子，Transcript 1 和 Transcript 2 为基因经过可变剪切形成的两种转录本所包含的外显子。针对比对到正义链上的reads，如果 reads 比对到了一个外显子上或者比对到两个相邻的外显子上，则该 read 被分类为转录本 read（蓝色）；如果 reads 比对到两个不相邻的外显子上，则该 read 被分类为外显子 read（浅蓝色）；如果 reads 比对到内含子区域，则该 read 被分类为内含子 read（红色）；紫色表示 reads 比对到反义链上。

小知识（敲黑板）

在默认情况下，只有蓝色的转录本 read 会被计入到 UMI 计数中。但在某些情况下，如在实验时输入的为细胞核时，未剪接的转录本有可能产生高水平的内含子序列，为了将这些内含子 read 计入，cellranger count 可以添加一个参数为 include-introns。当使用该参数时，任何比对到单个基因的 reads ---- 包括转录本 read（蓝色）、外显子 read（浅蓝色）和内含子 read（红色）都会计入 UMI 计数中。

此外，只有在基因组上有唯一比对位点的 reads 才被计入到UMI计数中。

如何进行 UMI 计数？

1. 在计算 UMIs 之前，Cell Ranger 会试图矫正 UMI 序列中的测序错误。

在转录本上有唯一比对位点的 reads 根据他们的barcode、UMI 和比对到的基因被分成不同的组。如果两个组的 reads 拥有相同的 barcode 序列并比对到同一个基因上，但是 UMI 序列中有一个碱基不同，那么其中一个 UMI 有可能是因为测序中的碱基替换错误而引入的。在这种情况下，UMI 的reads 数量少的那一组会被更正为 UMI 的reads数量多的那组。

2. 矫正可能的测序错误后进行 UMI 计数。

Cell Ranger 会再次按照 UMI（可能是修正后的）、barcode 和比对到的基因对 reads 进行分组。如果两组或者多组的 reads 拥有相同的 barcods 和 UMI 序列，但是比对到了不同的基因上，那么 reads 计数最高的那组比对到的基因会被进行 UMI 计数，其他的组则被舍弃掉。如果 reads 最高计数相同，则全部的组都被舍弃掉。

经过这两步过滤步骤后，每一个被统计到的barcode、UMI 和基因都会被保存在未过滤的 feature-barcode 矩阵中，输出在 unfiltered feature-barcode matrix 文件夹中。

图片

好啦，以上就是本篇的全部内容，在下篇文章中我们会重点介绍 Cell Ranger 如何判断识别高质量细胞，欲知后事如何，且听下回分解~

网友评论

本文标题：Cellranger原理介绍（上）

本文链接：https://www.haomeiwen.com/subject/gcrwqltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Cellranger原理介绍（上）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读