特定的实验方法的已知条形码存储在被称为“白名单”的文件中(另请参阅什么是条形码白名单?)。例如,单细胞3'v2和V(D)J测序的白名单中大约有737,000个条形码,单细胞3'v3和v3.1化学的条形码约为300万个。
Cell Ranger 使用以下算法根据白名单更正假定的条形码序列:
1.计算白名单上每个条形码在数据集中观察到的频率。
2.对于数据集中未列入白名单的每个观察到的条形码:
- 对于距离 1-汉明的每个白名单序列:
- 计算观察到的条形码源自白名单条形码的后验概率,并在不同碱基处存在排序错误(基于碱基 Q 分数)
- 将观察到的条形码替换为后验概率最高且超过 0.975 的白名单条形码。
更正后的条形码用于所有下游分析和输出文件。在输出 BAM 文件中,原始的未校正条形码在 CR 标记中编码,更正后的条形码序列在 CB 标记中编码。无法分配更正条形码的读取将没有 CB 标记。
注意:这里的内容也可以在基因表达算法页面上找到。
网友评论