PCA：这样应该懂了吧！

作者: 生信云笔记 | 来源:发表于2024-09-06 14:01 被阅读0次

PCA
2020-08-25--PCA降维01
就是这样。19.0421
PCA降维
PCA
12-机器学习练习与特征工程、评价指标
【小小的随笔】冬天，下雪了吧
PCA在R语言中的实现
浅谈PCA降维原理
2018-06-05

在RNA-seq分析结果中经常会看到由两个主成分(PC1，PC2)绘制的PCA (principal component analysis)质控图，来反映样本间的远近关系。那么，PCA到底是个什么东西？

简单来说，PCA是一种无监督学习方法，利用正交变换将原本由很多线性相关变量表示的数据转变为少数线性无关变量表示的数据，转变后这些线性无关的变量称为主成分。通常，PC的个数要小于原始变量，具有降维的效果。由此可见，直接来说就是PCA简化了数据，降低了数据分析的复杂度。并且，PCA分析结果中PC的方差依次递减，即PC隐含的信息量递减。也就是说，第一个PC在样本间区别最大，依次递减。

举个栗子，RNA-seq测序数据，经过比对定量后得到表达谱。此时，其中每个样本的结果都是由2万个左右基因的表达值组成，每一个基因都是一个变量，也就是说每个样本的数据都是由2万个变量组成。那么，如果直接用这两万个变量来评估样本两两间的相似性，这无疑会复杂很多。此时，做个PCA分析，选取样本间方差最大的前两个主成分来做区分，nice！

现在回头来看看PCA是如何转换变量的，为了能够直观地展示，咱们来个简单的示例说明PCA的原理。例如，有三个样本S1-3，样本有两个基因geneA和geneB的表达值，如下图所示。那么，评估三个样本间的远近关系，就变成评估样本内两个基因表达值的情况。显然，直接用geneA和geneB两个变量来评估样本的远近都不那么容易，这里还仅仅是两个变量，想想如果有2万多个变量会如何。