R语言确定聚类的最佳簇数：3种聚类优化方法

作者: 拓端tecdat | 来源:发表于2020-04-02 13:48 被阅读0次

R语言确定聚类的最佳簇数：3种聚类优化方法
R语言确定聚类的最佳簇数：3种聚类优化方法
用肘方法确定 kmeans 聚类中簇的最佳数量
Udacity 数据分析进阶课程笔记L39：聚类
K cluster number
无监督学习聚类分析③
聚类（kmeans，DBSCAN，OPTICS）
2019-01-21 k均值--k的选择
k-Means++/FCM/凝聚层次聚类/DBSCAN
10.单细胞 RNA-seq：聚类分析

原文链接：http://tecdat.cn/?p=7275

确定数据集中最佳的簇数是分区聚类（例如k均值聚类）中的一个基本问题，它要求用户指定要生成的簇数k。

一个简单且流行的解决方案包括检查使用分层聚类生成的树状图，以查看其是否暗示特定数量的聚类。不幸的是，这种方法也是主观的。

我们将介绍用于确定k均值，k medoids（PAM）和层次聚类的最佳聚类数的不同方法。

这些方法包括直接方法和统计测试方法：

直接方法：包括优化准则，例如簇内平方和或平均轮廓之和。相应的方法分别称为弯头方法和轮廓方法。

统计检验方法：包括将证据与无效假设进行比较。

除了肘部，轮廓和间隙统计方法外，还有三十多种其他指标和方法已经发布，用于识别最佳簇数。我们将提供用于计算所有这30个索引的R代码，以便使用“多数规则”确定最佳聚类数。

对于以下每种方法：

我们将描述基本思想和算法

我们将提供易于使用的R代码，并提供许多示例，用于确定最佳簇数并可视化输出。

肘法

回想一下，诸如k-均值聚类之类的分区方法背后的基本思想是定义聚类，以使总集群内变化[或总集群内平方和（WSS）]最小化。总的WSS衡量了群集的紧凑性，我们希望它尽可能小。

Elbow方法将总WSS视为群集数量的函数：应该选择多个群集，以便添加另一个群集不会改善总WSS。

最佳群集数可以定义如下：

针对k的不同值计算聚类算法（例如，k均值聚类）。例如，通过将k从1个群集更改为10个群集。

对于每个k，计算群集内的总平方和（wss）。

根据聚类数k绘制wss曲线。

曲线中拐点（膝盖）的位置通常被视为适当簇数的指标。

平均轮廓法

平均轮廓法计算不同k值的观测值的平均轮廓。聚类的最佳数目k是在k的可能值范围内最大化平均轮廓的数目（Kaufman和Rousseeuw 1990）。

差距统计法

该方法可以应用于任何聚类方法。

间隙统计量将k的不同值在集群内部变化中的总和与数据空引用分布下的期望值进行比较。最佳聚类的估计将是使差距统计最大化的值（即，产生最大差距统计的值）。

资料准备

我们将使用USArrests数据作为演示数据集。我们首先将数据标准化以使变量具有可比性。

head(df) ## Murder Assault UrbanPop Rape ## Alabama 1.2426 0.783 -0.521 -0.00342 ## Alaska 0.5079 1.107 -1.212 2.48420 ## Arizona 0.0716 1.479 0.999 1.04288 ## Arkansas 0.2323 0.231 -1.074 -0.18492 ## California 0.2783 1.263 1.759 2.06782 ## Colorado 0.0257 0.399 0.861 1.86497

need-to-insert-img

Silhouhette和Gap统计方法

简化格式如下：

下面的R代码确定k均值聚类的最佳聚类数：

# Elbow method fviz_nbclust(df, kmeans, method = "wss") + geom_vline(xintercept = 4, linetype = 2)+ labs(subtitle = "Elbow method") # Silhouette method # Gap statistic

need-to-insert-img

## Clustering k = 1,2,..., K.max (= 10): .. done ## Bootstrapping, b = 1,2,..., B (= 50) [one "." per sample]: ## .................................................. 50

need-to-insert-img

根据这些观察，有可能将k = 4定义为数据中的最佳簇数。

30个索引，用于选择最佳数目的群集

数据：矩阵

diss：要使用的相异矩阵。默认情况下，diss = NULL，但是如果将其替换为差异矩阵，则距离应为“ NULL”

distance：用于计算差异矩阵的距离度量。可能的值包括“ euclidean”，“ manhattan”或“ NULL”。

min.nc，max.nc：分别为最小和最大簇数

要为kmeans计算NbClust（），请使用method =“ kmeans”。

要计算用于层次聚类的NbClust（），方法应为c（“ ward.D”，“ ward.D2”，“ single”，“ complete”，“ average”）之一。

下面的R代码为k均值计算：

## Among all indices: ## =================== ## * 2 proposed 0 as the best number of clusters ## * 10 proposed 2 as the best number of clusters ## * 2 proposed 3 as the best number of clusters ## * 8 proposed 4 as the best number of clusters ## * 1 proposed 5 as the best number of clusters ## * 1 proposed 8 as the best number of clusters ## * 2 proposed 10 as the best number of clusters ## ## Conclusion ## ========================= ## * According to the majority rule, the best number of clusters is 2 .

need-to-insert-img

根据多数规则，最佳群集数为2。

R语言确定聚类的最佳簇数：3种聚类优化方法
原文链接：http://tecdat.cn/?p=7275 确定数据集中最佳的簇数是分区聚类（例如k均值聚类）中的...
R语言确定聚类的最佳簇数：3种聚类优化方法
原文链接：http://tecdat.cn/?p=7275 确定数据集中最佳的簇数是分区聚类（例如k均值聚类）中的...
用肘方法确定 kmeans 聚类中簇的最佳数量
用肘方法确定 kmeans 聚类中簇的最佳数量 - 赏尔 - 博客园 KMeans 聚类中的超参数是 K，需要我们...
Udacity 数据分析进阶课程笔记L39：聚类
聚类算法是一种非监督类型的机器学习算法，并通过电影分类解释聚类算法应用场景。 K-Means算法讲解：确定聚类（簇...
K cluster number
1. 生成模拟数据集 2. K-means聚类 2.1 需要确定聚出的类的数目。可通过遍历多个不同的聚类数计算其类...
无监督学习聚类分析③
确定最佳聚类数目 Nbclust包 Nbclust包是《R语言实战》上一个包，定义了几十个评估指标，聚类数目从2遍...
聚类（kmeans，DBSCAN，OPTICS）
聚类 K-means聚类样本集，聚类簇数k。从D中随机选择k个样本作为初始均值向量令 for j =1,2,...
2019-01-21 k均值--k的选择
目前用来决定聚类数目的最常用的方法仍然是通过看可视化的图，或者看聚类算法的输出结果，或者其他一些东西来手动地决定聚...
k-Means++/FCM/凝聚层次聚类/DBSCAN
参考自初识聚类算法:K均值、凝聚层次聚类和DBSCAN，模糊聚类FCM算法。聚类的目的将数据划分为若干个簇，簇...
10.单细胞 RNA-seq：聚类分析
学习目标：评估是否存在聚类过程产生的技术误差使用 PCA 和 UMAP 图确定聚类质量，并了解何时重新聚类评...