美文网首页
如何把控数据质控那个“度”?

如何把控数据质控那个“度”?

作者: 百奥智汇 | 来源:发表于2023-03-28 16:27 被阅读0次

数据质控 Quality Control

单细胞测序对于样本质量要求非常严格,实验操作中是不能避免质量差的细胞被捕获,那么数据分析时如何剔除低质量的数据,获得高质量的单细胞数据用于下游的数据分析。今天小编带大家详细了解一下数据质控都有哪些参数可以调整来获得高质量的单细胞数据。

一、单细胞数据分析为什么要做数据质控?

在细胞解离获得单细胞悬液的过程中细胞会损伤,使得RNA信息丢失,细胞捕获过程中往往会引入一些低质量的细胞。在数据分析评估过程中,我们会通过判断单个细胞中检测到的counts值、检测到的基因数过低被认为是低质量的细胞,相反counts值过高,可能会是双细胞所造成的[1];由于损伤细胞和死细胞会表现出大量的线粒体污染,使得线粒体基因在细胞中高表达,可能会导致后续数据分析聚类时会单独形成线粒体基因高表达的细胞群而不是按细胞类型进行聚类,从而导致细胞分群出现误差,同时也可能会导致研究人员在做PCA获取主成分时主要体现了细胞质量的差异,而不是真正的生物学差异;以上情况都需要将低质量的细胞在数据质控时过滤掉。

二、如何做单细胞数据质控

数据质控时有多种参数可以调整来过滤低质量的细胞,如:细胞中counts值、检测到的基因数、线粒体基因比例、红细胞比例等。其中线粒体基因与红细胞比例与实验操作息息相关,在制备单细胞悬液时会经过裂红处理,尽可能去除样本中的红细胞,单细胞悬液的细胞活率越高,线粒体基因比例越低。线粒体基因比例大部分文章会设置10%或15%,如果对于质控要求更严格可以小于5%,比如:Peter等人精细刻画了乳腺癌T细胞的单细胞图谱,作者认为线粒体基因比例大于4%是低质量细胞[3]

单细胞实验中双细胞率(一个油滴包裹多个细胞)是不可避免的,数据质控时可以用DoubletFinder、Scrublet等算法进行过滤,或者通过控制counts值的大小来进行双细胞剔除,比如:张泽民教授与合作者揭示多癌种内髓系细胞特征图谱,作者认为UMI数大于40,000以及检测到的基因数超过5,000是潜在的双细胞[1]。初步完成数据质控后,小提琴图可以看到样本数据的大致分布,来决定是否需要更严格的参数设置,如图1所示:nCount_RNA有部分离散值,其UMI数大于整体数据UMI,这可能是由于双细胞所造成的,可以通过调小UMI最大值来进行过滤。

小编不建议大家采用一刀切的数据质控方式,分析启动之前可以阅读与自己研究相关领域的单细胞文章同时结合自己样本的处理情况来进行合理的参数设置。

图1 数据质控[2]

三、数据质控结果解读

大家在单细胞文章的补充材料中会看到数据质控结果,以小提琴图的形式展示(图1),图中小黑点代表数据的整体分布情况,横坐标为样本名,纵坐标分别为细胞中检测到的基因数、UMI数和线粒体基因比例。其中:

nFeature_RNA代表每个细胞中检测到的基因数

nCount_RNA代表每个细胞中的UMI数目

percent_mt代表细胞中线粒体基因比例

四、得到高质量单细胞数据后下一步该做什么?

数据质控完成后得到高质量的单细胞数据,同时也对数据进行“瘦身”节省计算资源,提高分析效率。那么数据质控完成后,接下来该怎么做数据分析呢?

1. 数据进行标准化处理,常用的函数如:NormalizeData;

2. 如果有多个样本,数据质控分别完成后可进行数据整合及批次效应校正。

参考文献

[1] Cheng S, Li Z, Gao R, et al. A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells[J]. Cell, 2021, 184(3): 792-809. e23.

[2] https://satijalab.org/seurat/articles/pbmc3k_tutorial.html

[3] Savas P, Virassamy B, Ye C, et al. Single-cell profiling of breast cancer T cells reveals a tissue-resident memory subset associated with improved prognosis[J]. Nature Medicine, 2018, 24(7): 986-993.

划  重  

相关文章

  • 单细胞分析之质控(四)

    学习目标 知道如何导入和读取数据,并了解数据的质控,能够对数据进行质控和分析。 1. 质控准备 在基因表达定量后,...

  • nanopore测序数据质控

    目前的nanopore测序质量一般,那么测序质量到底如何,则需要进行量化,也就是数据质控分析。数据质控是数据分析中...

  • 2021-05-23 批量下载sra文件及转换为fastq

    数据下载 数据转换 数据质控 数据过滤

  • 宏基因组分析概述

    测序数据预处理——质控:Trimmomatic 测序数据预处理——质控统计:FastQC 序列组装与基因预测——拼...

  • 数据质控

    1 安装 fastQC sudo apt install fastqc 2 操作: fastqc -o /mnt/...

  • 数据质控

    参考: 从零开始完整学习全基因组测序数据分析:第3节 数据质控 前言 如上图显示,整个完整的WGS 流程一般有以下...

  • 三、数据质控

    1.fastq格式介绍 2.数据质控 3.质控报告的理解(html)

  • 单细胞转录组数据分析课件||2. Quality control

    本文介绍了单细胞转录组数据分析非常重要的一步:数据质控。 数据质控应当引起我们的注意,数据的清洁程度决定了数据挖掘...

  • 【转录组03】报错分析&数据质控和过滤

    转录组分析总流程 数据质控 背景知识 数据量的统计方式image.png sra转换成fastq 质控 image...

  • RNA-seq 数据处理

    原始数据质控 软件:fastqc,multiqc 先使用fastqc将多个样本逐个进行质控,再使用multiqc将...

网友评论

      本文标题:如何把控数据质控那个“度”?

      本文链接:https://www.haomeiwen.com/subject/yoqxddtx.html