一:前言
在生信的分析学习过程中,对结果的可视化是非常重要的,在很多生信文章常见的就是热图,PCA等图。
但是在画图之前,我们需要知道,我们这么做的目的是什么?那么画热图和PCA分析图的意义和目的是什么呢?什么是热图,什么是PCA分析图?
二:热图
在组学分析的生信文章中,常常可以见到热图。非常吸引读者的眼球,好看的热图可以为文章增(ti)色(go)不(bi)少(ge)。
举个栗子:(A)在用不同的病毒处理了小鼠后,取肺部与上皮组织生长有关的cluster 1 基因的热图,展现的是这个cluster的代表性基因,红色的基因被上调,蓝色的基因被下调。调节的幅度用颜色的强度表示.
其实从这个栗子就可以看出来热图的三个基本功能:
1:展示样本多个基因的表达量的高低变化 根据每组的基因表达值进行归一化后显示。(一般归一化的方法有按行均一化,按列均一化,所有值均一化)
2:聚类结果,对不同样本进行分类 ,聚类其实是根据差异程度(选的是欧氏距离,还是相关系数等),目的是为了判断样本的近远关系。比如说肿瘤的进化过程中,细胞的衍化类型是什么样的
3:获得表达模式相似的基因集合
三:PCA分析
在转录组的分析当中,主成分分析(PCA)往往是成果体现的一个很重要的手段。
PCA分析的定义:主成分分析法是数据挖掘中常用的一种降维算法,是Pearson在1901年提出的,再后来由hotelling在1933年加以发展提出的一种多变量的统计方法,其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,也可以用来削减回归分析和聚类分析中变量的数目,与因子分析类似。(说实话是在是没啥用,看不懂)
举个栗子:
比如你要做一项分析人的肥胖的因素有哪些,这时你设计了50个你觉得都很重要的指标,然而这50个指标对于你的分析确实太过繁杂,这时你就可以采用主成分分析的方法进行降维。50个指标之间会有这样那样的联系,相互之间会有影响,通过主成分分析后,得到三五个主成分指标。此时,这几个主成分指标既涵盖了你50个指标中的绝大部分信息,这让你的分析得到了简化(从50维降到3、5维)。
如果运用到生信分析的话,可以这么理解:我们拿到了一个表达谱数据,里面有很多差异表达的基因信息。(一般情况下,这些基因数目非常的多,成千上万)。那么拿这么多基因进行分析肯定不行。所以需要找到最具有代表性的进行区分。
推荐大家看一个比较经典的PCA分析的文章:主成分分析(PCA)基本原理及分析实例 (https://www.jianshu.com/p/162bb4ea1b7f)
----------------------------------------分割线----------------------------------------------------------
四:画图
说了那么多,现在来给大家推荐一个非常好用的画图网站---------Clustvis,网址链接是:https://biit.cs.ut.ee/clustvis/
一:点击 Data import
上传data可以直接用上传文件(不能大于2M),也可以直接复制粘贴(如果数据不是很多的话),此外还可以从公共数据库导入等方法。文本的格式内容可以参照它给的sample,需要给出基本行列信息以及每个样本的数值(表达值或者是甲基化等数值)
选择上传data的方式,以及数据格式
二:进行数据的预处理
以它给出的sample样本信息为例
数据的预处理
1:首先是不是需要转换(如果数值比较大或者是比较小的情况下)
2:每列的注释是否需要保留,这个信息是在上传的时候样本标记好的
sample每列的信息
3:缺失值的取值范围(自己可以调整)
4:Row scaling 主要是运用到PCA画图分析中,可以有不同的选项,可以以单元度,向量度,贡献度进行PCA分析
5:PCA的分析方法:有SDV 分析方法(奇异值分析方法:SVD最主要的应用就是对数据进行压缩,只保留最主要的数据。),Nipals 分析方法(偏最小二乘法PS回归),Probabilistic PCA PPCA:(即认为观测到的高维变量其实是由低维的潜变量通过某个广义线性模型生成的(这种低维→高维的映射,可以类比三维空间的曲线方程,一维自变量tt被映射为三维函数值yy),我们的目的是通过观测值(高维)推测背后的潜变量(低维),这样也就实现了数据压缩的效果)
三:结果展示
在画图出来的左边的工具栏是可以调整参数的比如说画图的颜色等。
示例样本的热图绘制结果
示例样本的PCA结果
Reference and Recommend:
你真的了解热图吗
算法杂记-SVD,PCA,KPCA以及PPCA和FA - simplex - 博客园
知乎----高通量测序技术专栏
知乎live---R入门和基础绘图系统
热图文章来源:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5578021/
--------------------------------------------分割线-------------------------------------------------
后记:
网站虽然好用,但是掌握了R语言画图代码的话,是不是更好呢?大家学习起来,推荐孟大神的高通量专栏(https://zhuanlan.zhihu.com/ngs-learning)和知乎live呀!
附上学习笔记:https://www.jianshu.com/p/2e8beba8a1e5
网友评论