作者,追风少年i
时下的单细胞分析,都以大样本量著称,摆在面前的第一道难题,便是多样本的整合分析,随之带来的就是通常讲到的批次问题。而分析的目的,是要寻找真正的生物学差异,避免因为批次引发的错误判断,为了解决批次问题,目前已经有了很多的分析手段,其中有scanpy整合分析用到的bbknn,也有liger[1]整合分析用到的iNMF,而本篇中重点介绍的,就是目前最为常用的两种方法,Seurat本身自带的CCA与文献广泛运用的harmony[2]。
批次效应的产生
批次效应(Batch effect)通常指的是实验指标检测中,来源关注的生物学处理效应之外的其他因素导致的样本结果的波动。而对于单细胞而言,主要有以下主要的影响因素:
(1)不同样本
(2)同一样本的生物学重复
(3)同一样本的技术重复
(4)同一样本在同一个实验室由同一团队在不同时间点处理
(5)不同建库策略,10X平台,Drop-seq,SMART2-seq
(6)不同测序平台,BGI/Illumina.
通常的状况下,单细胞的样本基本都使用10X平台,测序平台为Illumina,那么最为关注的批次因素,就是不同的样本。如果批次效应比较小还可以接受,如果批次效应很严重,就可能会和真实的生物学差异相混淆,让结果难以捉摸。因此需要辨别到底存在多大程度的批次效应,对真实的生物学样本会不会产生影响。批次效应的影响主要体现在以下几个方面:
(1)批次效应与样本处理条件的因素部分重叠,那么批次效应会抵消一部分生物学差异,造成信息丢失。
(2)批次效应与样本处理条件的因素效应相同,则会加大样本之间的差异,最终难以区分差异是由于实验处理导致还是批次效应导致。
批次效应对于单细胞数据的影响主要是基因表达的变化对定量的影响。其次就是导致本该聚类在一起的细胞因为批次效应被分为不同的簇,影响了细胞亚群鉴定的准确性,以及下游的所有分析。而最理想的处理结果,如下图所示:

即本该聚类在一起的细胞仍然保持聚类关系,不同的细胞群在去除批次后仍然各自分开。
网友评论