美文网首页
层次聚类

层次聚类

作者: 权氏小龙虾 | 来源:发表于2019-06-03 18:01 被阅读0次

是一种无监督的学习(拿到的数据没有任何分类)、,使用聚类不需要被告知要划分的组是什么样的明神宗不知道找什么时就要自动完成分组。明确分好类是训练样本集

根据样本点的集合特征完成分类

距离--样本之间相似程度

连续型数值变量

分类型变量

二进制距离:

 -m1:1-1配对的数量

-m0:0-0配对的数量

-m2:不配对的数量

dist函数

dist(x,method="edclidean",diag=F,upper=F,p=2)

method参数

-edclidean:欧式距离

-maximum:切比雪夫距离

-manhattan:曼哈顿距离

-canberra:lance距离

-minkowski:闵可夫斯基距离,这时参数p定义结束

-binary:二进制距离

diag:对角线上的0是否显示

upper上三角还是下三角

set.seed(12345)

(x=rnorm(20,mean = rep(1:4,each=5)*10,sd=3))

(y=rnorm(20,mean = rep(c(1,2,3,2),each=5)*10,sd=3))

(df=data.frame(x=x,y=y))

(dists=dist(df,method = 'minkowski',diag = T,p=3))

相似系数-变量之间的相似程度

皮尔森相关系数

apply系列函数的基本作用是对数组(array,可以是多维)或者列表(list)按照元素或元素构成的子集合进行迭代,并将当前元素或子集合作为参数调用某个指定函数。apply族函数分别有apply函数,tapply函数,lapply函数,mapply函数。每一个函数都有自己的特点,在处理不同类型的数据可以选用相对应的函数。

apply函数只能用于处理矩阵类型的数据,也就是说所有的数据必须是同一类型。因此要使用apply函数的话,需要将数据类型转换成矩阵类型。

https://blog.csdn.net/wzgl__wh/article/details/52207233


数据转化

set.seed(12345)

(x=rnorm(20,mean = rep(1:4,each=5)*10,sd=3))

(y=rnorm(20,mean = rep(c(1,2,3,2),each=5)*10,sd=3))

#runif均匀分布函数

(z=runif(20,min = 1000,max=2000))

(df=data.frame(x=x,y=y,z=z))

#查看均值

apply(df,2,mean)

#查看方差

apply(df,2,sd)

#中心化后均值为0方差不变

(dfc=scale(df,scale =F))

apply(dfc,2,mean)

apply(dfc,2,sd)

#标准化后均值为0方差为1

(dfs=scale(df))

apply(dfs,2,sum)

apply(dfs,2,sd)

#极差标准化

(d1=sweep(dfs,2,apply(dfs,2,mean),'-'))

(r=apply(dfs,2,max)-apply(dfs,2,min))

(dfr1=sweep(d1,2,r,'/'))

#极差正规化

(d0=sweep(dfs,2,apply(dfs,2,min),'-'))

(r=apply(dfs,2,max)-apply(dfs,2,min))

(dfr0=sweep(d0,2,r,'/'))

(dists=dist(df,method = 'minkowski',diag = T,p=3))

层次聚类法

思想:1.找到两个最近的点(类)2.把他们合成一个点(类);(这个新的点不是数据集中本来在的点,把原来的两个点删掉, 用这个点代替原来两个点)3.重复1,2最终得到一棵树。

耗资源

类间距离的算法(hclust的method参数

-最短距离法single

-最长距离法complete

-中间距离法median

-类平均法average

-重心法centroid

-离差平方法ward

层次聚类步骤

*dist()得到距离对象,得到距离矩阵,可能会很大,不断地遍历比较合并

*hclust(d,method="complete",members=NULL)

*plot()画出谱系图

*rect.hclust()分组

*heatmap()观察层次聚类

set.seed(12345)

(x=rnorm(20,mean = rep(1:4,each=5)*10,sd=3))

(y=rnorm(20,mean = rep(c(1,2,3,2),each=5)*10,sd=3))

plot(x,y,col='blue',pch=16)

text(x+0.05,y+0.05,labels = as.character(1:12))

(pts=data.frame(x=x,y=y))

(distxy=dist(pts))

(hc=hclust(distxy))

plot(hc)

rect.hclust(hc,k=3)

#函数要求,转化为矩阵

dm=as.matrix(pts)

heatmap(dm)

K-means聚类法

思想:1、随机选择k个点作为初始质心2、把每个点按距离分配给最近的质心,形成k个簇3、重新计算每个簇的质心4、重复2、3步,直到质心不再变化

kmeans(x,cengters,iter.max=10,...)

相关文章

  • 数据挖掘

    数据立方体,最小内存计算 层次聚类 首先介绍聚类中的层次聚类算法。层次法又分为凝聚的层次聚类和分裂的层次聚类。 凝...

  • R 实现聚类分析_07Jul2020

    聚类分析 层次聚类 kmeans 使用eclust进行kmeans聚类或层次聚类

  • 11 聚类算法 - 密度聚类 - DBSCAN、MDCA

    09 聚类算法 - 层次聚类10 聚类算法 - 代码案例四 - 层次聚类(BIRCH)算法参数比较 七、密度聚类概...

  • 聚类分析

    均值聚类 层次聚类

  • 09 聚类算法 - 层次聚类 - CF-Tree、BIRCH、C

    08 聚类算法 - 聚类算法的衡量指标 五、层次聚类概述 层次聚类方法对给定的数据集进行层次的分解,直到满足某种条...

  • 层次聚类算法与层次聚类优化算法

    层次聚类 对给定的数据集进行层次分解或者合并直到某个条件结束 层次聚类算法分为两大类1 凝聚的层次聚类(AGNE...

  • 层次聚类

    一、了解层次聚类 层次聚类方法对给定的数据集进行层次的分解,直到满足某种条件为止,传统的层次聚类算法主要分为两大类...

  • 层次聚类

    层次聚类分支 1)分裂法从上到下对大类别进行分割2)凝聚法从下到上对小类别进行聚合 层次聚类优点 kmeans中需...

  • 层次聚类

    层次聚类算法分为:自底向上的AGNES算法和自上而下的DIANA算法 讲一下AGNES算法,没有最仔细,只有更仔细...

  • 层次聚类

    试图在不同层次对数据集进行划分,从而形成树形的聚类结构。自顶向下或自底向上均可 AGNES :自底向上 初始所以样...

网友评论

      本文标题:层次聚类

      本文链接:https://www.haomeiwen.com/subject/wspotctx.html