A discriminative learning approach to differential expression analysis for single-cell RNA-seq
目前的方法用于scRNA数据分析遇到的问题是细胞数量众多。而且目前的分析方法大多基于gene counts的量化,因此不能分析individual isoforms.
Background
Isoform switch:
通过选择性剪接(AS),替代转录起始位点(aTSS)和替代转录终止位点(aTTS)产生不同转录物(gene isoforms)的能力是高等脊椎动物复杂性增加的主要原因。 绝大多数人类基因使用alternative isoforms:证据表明大约95%的multi-exon genes具有AS,约60%的基因至少有一个aTSS。ENCODE项目估计,平均每个基因具有6.3种同种型(3.9种不同的蛋白质编码同种型)。 因此,usage of gene isoform在许多生物过程中具有重要作用,包括发育,体内平衡,多能性和细胞凋亡。 此外,同种型通常是具有组织特异性,并且可以改变相应RNA或蛋白质的功能,细胞定位和稳定性。
Bulk RNA-seq经常被用于研究同型表达之间的动态变化。ScRNA数据中的isoforms annalysis 更加复杂,但是同样非常重要。针对bulk数据开发的工具依赖于对isoforms 的reads进行取样。在ScRNA中使用这些方法遇到的挑战之一是许多单细胞的数据来源于3'端转录组。
logistic regression:
- 普通线性回归主要用于连续变量的预测
- 逻辑回归用于离散变量的分类,主要用于分类问题,常用来预测概率
Transcript compatibility counts (TCCs)
TCC由Ntranos提出,与传统利用转录组或基因定量相比,TCC分析方法速度提升了两个数量级。TCC可由RNA-seq 数据量化软件 kallisto获得。
Result
本文中,作者对每个基因进行逻辑回归(logistic regression)从而通过对转录本的量化预测cell labels。
逻辑回归模型提供了用于区分细胞类型的转录组的线性组合。在基于experimental effect sizes的模拟中,逻辑回归的表现优于其他方法。

转录本定量在生物学上是有重要意义的,但是某些情况却无法获得转录本。比如仅对转录组的3‘端进行测序。原因是相同的基因往往会共享相同的3' UTR,因此仅靠3'端测序无法将这些基因区分开来。因此,在本文中,作者测试了使用TCC进行逻辑回归的可能性。
作者测试了来自3个人T 细胞群体的10X 测序数据。基于逻辑回归能够识别纯化的CD45RO+ memory and CD45RA+naive T cell 群体中CD45的差异表达。而基于gene counts的逻辑回归无法区分不同的CD45。P值的分布表明尽管这两种方法都能够发现在整体上变化最大的基因,但只有基于TCC的逻辑回归能够检测到isoforms switch。

除了CD45之外,作者们也利用同样的方法找到了许多其他在memory T和naive T中具有isoforms switch的基因。

Summary
Logistic回归对scRNA-seq非常powerful,因为它能够利用scRNA-seq实验中产生的大量细胞,并将isoforms switch的信息整合到基因水平的测试中。 它揭示individual isoform对基因水平表达差异的贡献,从而增强了结果的可解释性。可以利用这种方法同时对所有基因进行逻辑回归,以揭示表征细胞类型的gene marker。
网友评论