文章提出了souporcell能够实现细胞聚类,通过无基因型遗传变异进行聚类,而且还可以评价环境中的RNA样本数。(We present souporcell, a tool to cluster cells by genotype, call doublets, and to genotype these clusters while modeling the amount of ambient RNA in the system)
1、要实现聚类首先需要把每个细胞的等位基因信息测量出来,精确知道 variant calls and allele counts。之后用minimap2重塑的reads,使得比对更有利于准确的变体调用。1a
2、假定的SNPs(single nucleotide polymorphism单核苷酸多态性)叫为freebayes
3、用vartrix统计每一个细胞的等位基因,如果有可靠的通用变体源可用,则可以使用它来代替freebayes候选变体
4、聚类问题可由一个矩阵表示,每一行代表一个细胞,每一列代表一个variant,数值表示reads里读到的等位基因数(类)?
5、mixture model clustering 簇中心表示为簇中每个位点的交替等位基因分数,优化过程如下 loss function定义为观察到的等位基因片段与cluster的等位基因片段之间的平方差,loss function通过tf里面的ADAM进行优化。模型优势如下:细胞可以部分地分配给多个cluster,doublets和不同水平的环境RNA也会被分配。
6、在获得了聚类中心之后,我们通过对一个细胞的等位基因计数进行建模,确定了双重细胞条形码(图1e)(一般doublets会有比较多的等位基因,但是这对同源性的doublet似乎无能为力,不过这种聚类方式,doublets似乎影响不大)
7、推导二倍体的周围环境RNA的过程如下:
i为对应的落点,j为对应的cluster,对应等位基因数服从二项分布
其中
是0、0.5或1,p为周围的RNA数,ai为实验中等位基因的平均比例。环境中的RNA会使观察到的等位基因片段远离潜在的基因型等位基因片段,该模型是用概率模型的特定领域语言STAN实现的,可以克服maximum likelihood soup fraction with gradient descent的问题。
8、针对批次处理带来的影响还没有很好的方法处理
之后就是数据集上和各种数据对比了的对比了。ps:为了逼近真实数据集,他们测序了五株诱导多能干细胞,预测同时不同的条件下构建过程也不一样,如首先综合混合了5个样本中20%的细胞,同时保留了它们的原始样本,为了使合成混合物尽可能接近真实数据,还通过切换所有读取的条形码来模拟6%的双重态(细胞之间换)还有5%的环境RNA通过随机切换细胞条形码进行5%的读取。之后还有多种数据集构建方式。
结论:
souporcell的确有更好的表现,在母亲/胎儿数据集上亦是如此。
网友评论