美文网首页生物信息数据分析
深入浅出带你了解主成因分析(Principal Componen

深入浅出带你了解主成因分析(Principal Componen

作者: 博士苑 | 来源:发表于2021-01-08 14:34 被阅读0次

    前言

    在涉及到生信分析的相关文章中,我们经常可以看到下面这样的聚类图,这种图一般是由主成因分析得到,主成因分析(Principal Component Analysis,PCA)是一种无监督学习的多元统计分析方法。那么为什么要用到主成因分析,如何进行主成因分析,得到的结果又应该如何解读呢。YouTube视频博主StatQuest 的视频非常深入浅出的为我们解答了这些问题。

    01  理解PCA的目的

    假设我们有一群细胞,可能是由三种不同类型的细胞组成,遗憾的是,我们无法从外部观察到每种细胞类型的差异,所以我们对每个细胞中的mRNA进行测序,以确定哪些基因是活跃的,从而得知每个细胞正在做什么。

    同时假设下表是我们测序所得的数据,其中每一列代表每个基因在每个细胞中的表达量。

    如果我们只需要比较cell1和cell2两个细胞,我们可以把每个基因的测量结果直接绘制在二维坐标轴上,可以很清晰看到有些基因在cell1中被高度转录,而在cell2中转录水平很低(坐标轴左上),有些基因在cell1中转录水平很低,在cell2中被高度转录(坐标轴右下),整体呈负相关,表明cell1与cell2可能具有不同的功能。

    我们已经知道了如何比较cell1和cell2的基因转录差别,同理我们也可以比较cell1和cell3的转录差别。cell1和cell3呈正相关,表明他们正在起类似的作用。

    最后,我们还可以比较cell2和cell3,结果呈负相关,表明cell2 与cell3起不同的作用。

    当需要同时比较cell1、cell2和cell3这三个细胞的表达量时,我们可以尝试在三维坐标轴上同时绘制这3个细胞的表达结果。Cell1是垂直的y轴,cell2是x轴(水平),cell3是z轴(深度)。然后我们可以通过旋转坐标轴来观察这些细胞的相关性。

    但是当我们需要知道四个以上细胞相关性的时候呢,无论是画成百上千的两两细胞比较的图,还是在同一坐标系中为每一个细胞都绘制一个轴,这些解决方案都不现实。这个时候我们可以选择画一个主成因分析(PCA)图,PCA图将细胞之间的相关性(或不相关性)转化为2D图,高度相关的细胞将会聚集在一起,为了让这些聚类更好看些,我们可以对他们进行上色。

    一旦我们确定了PCA图中的聚类,我们就可以回到原始细胞,知道他们代表了三种不同类型的细胞,用着他们的基因起三种不同类型的作用。

    02  PCA绘制方法

    PCA的绘制方法多种多样,既有R语言适用的方法,也有Python适用的方法,甚至现在很多公司都已经开发网页版的绘图工具,不用写代码就可以直接出图。根据不同的表达数据、分析目的以及个人喜欢,可以选择不同的方法。这里推荐一个非常好用的画图网站-Clustvis,网页链接https://biit.cs.ut.ee/clustvis/,该网站不仅可以绘制PCA图,还可绘制常用的热图。主页如下,功能分区清晰易懂。

    首先需要点击Data import上传数据,上传data可以直接用上传文件(不能大于2M)。文本的格式内容可以参照它给的sample,需要给出基本行列信息以及每个样本的数值(表达值或者是甲基化等数值)。选择上传data的方式,以及数据格式。

    然后根据给出的sample样本信息为例,点击Data pre-processing对数据进行预处理。主要需要的处理问题有1)数据过大或过小是否需要转换;2)每列的注释是否需要保留;3)缺失值的取值范围(自己可以调整)4)PCA分析的方法等。

    最后点击PCA选项,则会自动进行PCA图绘制,左侧边栏可以根据需要调整图形的参数。

    03  PCA图的解读

    坐标轴是按照重要性排序的,在此图中,第一主成分(PC1)轴(横轴)上贡献的差异比第二主成分(PC2)轴(纵轴)上贡献的差异更重要。

    如果把图换成下面这样,红蓝两个集群之间的距离和红黄两个集群之间的距离相等,那么红黄两个集群之间的差异比红绿两个集群之间的差异更大。

    最后,PCA只是分析这类数据的其中一种方法,还有很多其他方法,但是都是基于“降维”这一核心思路的变体。比如热图、t-SNE图以及多维度标度图(MDS)等。

    05  PCA聚类的应用

    综上所述,PCA聚类分析可以反应以下主要问题:

    1)揭示造成样本差异性的主成分及其贡献率。

    2)揭示不同处理下的样品的情况。样品组成越相似,样本在PCA中的距离越近。3)样本间的差异性。

    因此,PCA聚类分析可以广泛应用于各种生物信息数据分析,如可以在蛋白组学和代谢组学研究中能从总体上反应各组样本之间的总体差异和组内样本之间的变异度大小,其结果一目了然,在许多蛋白组学和代谢组学生信分析中常应用这种方法来探究各组样本中的差异。同时转录组测序、宏基因组以及宏转录组等经常使用PCA聚类分析区分各组别之间的差异,单细胞分析中常用的t-SNE聚类也是基于类似原理,可以非常高效地区分各类淋巴细胞。

    例如《Tumor Evolution and Drug Response in Patient-Derived Organoid Models of Bladder Cancer》这篇文章中,作者研究了人类膀胱癌的组织病理学和分子多样性,通过PCA聚类分析区分肿瘤组织与癌旁组织。

    相关文章

      网友评论

        本文标题:深入浅出带你了解主成因分析(Principal Componen

        本文链接:https://www.haomeiwen.com/subject/vihfaktx.html