美文网首页
聚类分析与R使用Part1-聚类分析介绍

聚类分析与R使用Part1-聚类分析介绍

作者: 3between7 | 来源:发表于2022-12-23 10:59 被阅读0次
  • 基本概念
    聚类分析法(Cluster Analysis)是研物以类聚的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析作分类研究。
  • 分析方法
    聚类分析方法分为两大类,一类是系统聚类法(hclust),第两类是快速聚类法(kmeans),快速聚类法是在样本量很大时替代系统聚类法使用的。
    按照聚类的对象,还可分为Q型聚类R型聚类。前者是对样品的聚类,后者是对变量的聚类。
  • 聚类统计量

Q型聚类,使用的统计量是距离,包括如下三种常见的距离:

欧式距离:d_{ij}(2)=[\sum_{k=1}^p(x_{ik}-x_{jk})^2]^{\frac{1}{2}}
马氏距离:d_{ij}(M)=(x_i-x_j)'{\sum}^{-1}(x_i-x_j)
兰氏距离:d_{ij}(LW)=\frac{1}{p}\sum_{k=1}^p\frac{|x_{ik}-x{jk}|}{|x_{ik}+x{jk}|},兰氏距离是绝对值距离的一个扩展。

R型聚类,也就是针对变量进行聚类,使用的是相关系数作为统计量:

相关系数 r_{ij}=\frac{\sum_{ij}(x_i-\overline x)}{\sqrt{\sum_i(x_i-\overline x)^2\sum_j(y_j-\overline y)^2}}

  • 距离矩阵 vs 相关矩阵
    距离矩阵长啥样?
    D=\begin{bmatrix} d_{11} & d_{12} & ... & d_{1n} \\ d_{21} & d_{22} & ... & d_{2n} \\ ...&... &... &... \\ d_{n1} & d_{n2} & ... &d_{nn} \end{bmatrix}= \begin{bmatrix} 0 & d_{12} & ... & d_{1n} \\ d_{21} & 0 & ... & d_{2n} \\ ...&... &0 &... \\ d_{n1} & d_{n2} & ... &0 \end{bmatrix}
    因为样本自己到自己的距离为0,所以D对角线上的值都为0。相关矩阵和距离矩阵有些类似,但对角线上都是1,因为自己与自己的相似性肯定是1。
    D=\begin{bmatrix} r_{11} & r_{12} & ... & r_{1p} \\ r_{21} & r_{22} & ... & r_{2p} \\ ...&... &... &... \\ r_{p1} & r_{p2} & ... &r_{pp} \end{bmatrix}= \begin{bmatrix} 1 & r_{12} & ... & r_{1p} \\ r_{21} & 1 & ... & r_{2p} \\ ...&... &1 &... \\ r_{p1} & r_{p2} & ... &1 \end{bmatrix}
    这个课程后面是重点讲Q型聚类,相关系数在之前的章节就讲过了。
  • 矩阵计算函数
    (1)距离矩阵dist()的用法:

dist(X,method='euclidean',diag=FALSE,upper=FALSE,p=2)

  • x为数据矩阵,data.frame;
  • method包括“euclidean","maximum",“manhattan“,“canberra”,“binary” or "minkowski",默认为欧式距离;
  • diag是是否包含对角元素,默认为无;
  • upper为是否需要上三角,默认为下三角矩阵;
  • p为Minkowski距离的幂次,默认为p=2(欧式距离)。

(2)相关系数矩阵使用cor(X)

相关文章

网友评论

      本文标题:聚类分析与R使用Part1-聚类分析介绍

      本文链接:https://www.haomeiwen.com/subject/dxpmqdtx.html