目前,虽然单细胞测序技术允许在一次实验中进行成千上万个细胞的转录分析,但一直存在数据稀疏性的问题,如基因的覆盖度低,Dropout
等。这些现象都会对基因表达在低维空间中的展示造成困扰,如t-SNE
、UMAP
图。所以,为了解决单细胞可视化上的问题,Nebulosa
包出现了,展示了其在图形美颜效果上的威力。下面的测试数据来自10X Genomics 3k PBMCs
。
当数据分完亚群后,需要对细胞做基因注释,不可避免地需要使用到一些所谓的marker
基因来展示亚群中细胞的表达情况。如下图,一眼就能看出CD3D
在哪些亚群里面高表达。
情况有时候并不像上面那样顺利,如下图,就很难从图上分辨出优势的亚群,不仅没有达到预期的可视化效果,可能还会引起负面作用。这个时候就轮到Nebulosa
上场一展身手了。
library(Seurat)
library(Nebulosa)
pbmc <- readRDS('pbmc3k_seurat.rds')
pbmc
An object of class Seurat
26233 features across 2638 samples within 2 assays
Active assay: SCT (12519 features, 3000 variable features)
1 other assay present: RNA
2 dimensional reductions calculated: pca, umap
plot_density(pbmc, "CD4")
结果如下:
Fig4 这美颜功能当真是立竿见影,这效果堪称是图骗
。数据经过软件这么一转换,呈现出的效果与前面相比,简直一言难尽呀。为了对比,再来看看CD3D
的效果。
plot_density(pbmc, "CD3D")
结果如下:
Fig5 可以看出,CD3D
的结果除了与上面的图整体效果一致外,还能轻松地凸显出亚群的主次。由此,不得不说Nebulosa
的可视化效果确实很优秀。但也不得不说,这种优秀有时候可能夹杂着一些欺骗的含义。为什么这么说,先来看下面的图。
现在回过头再看一眼Fig3
、Fig4
,很明显可以识别出Fig3
与Fig6
更吻合,也更符合数据的实际情况。从Fig4
可以看出CD4
在亚群3
、5
密度最高,而且覆盖了几乎这两个亚群的所有细胞,给人一种亚群内所有细胞都高达表的错觉,这也正是Nebulosa
可视化优秀的点。
从Fig6
可以看出实际情况,在亚群3中表达CD3D
的细胞1/4
都不到,而亚群5内1/4
多点,从数量角度来说显然不符合少数服从多数的原则。从某种意义上来讲,基因的表达没有被检测到可以理解,比如说亚群3和5有不少细胞没有检测到CD3D
的表达,但换个角度想一下,一群相同的细胞内大部分没有检测到某个基因,这是不是有理由相信原因不是随机因素,如果不是随机因素,继续使用岂不是有失偏颇。
当然,marker
基因的表达只是最直截了当的方式而不是唯一途径,也可以通过一些其他的指标来衡量亚群内细胞间的共性,从而评估是否为同类细胞。所以,虽然Nebulosa
的可视化很棒,但仅是在视觉效果上。当有理由说明分群没有问题,亚群内大部分都为同一类细胞时,用Nebulosa
做可视化可谓是锦上添花,否则可能就有些自欺欺人了。
网友评论