美文网首页
R语言机器学习与临床预测模型71--KMeans聚类算法R语言实

R语言机器学习与临床预测模型71--KMeans聚类算法R语言实

作者: 科研私家菜 | 来源:发表于2022-07-20 07:17 被阅读0次

R小盐准备介绍R语言机器学习与预测模型的学习笔记

你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】


01 KMeans聚类算法

聚类是从数据集中对观测值进行聚类的机器学习方法。它的目标是聚类相似观测值,不同类别之间差异较大。聚类是一种无监督学习方法,因为它仅尝试从数据集中发现结构,而不是预测应变量的值。
最常用的聚类算法就是k-means聚类算法。k-means聚类算法把数据集中每个观测值分为K个类别。每个分类中的观测值相当类似,K类之间彼此差异较大。实际应用中执行下列几步实现k-means聚类算法:
1.确定K值
2.将每个观察结果随机分配到一个初始簇中,从1到K。
3.执行以下步骤,直到集群分配停止变化。


02 R 实现kmeans聚类算法

library(factoextra)
library(cluster)

#load data
df <- USArrests

#remove rows with missing values
df <- na.omit(df)

#scale each variable to have a mean of 0 and sd of 1
df <- scale(df)

#view first six rows of dataset
head(df)

02 寻找最佳聚类数量

① 总体平方和

执行kmeans聚类算法,我们可以使用内置包stat中的kmeans()函数,语法如下:
kmeans(data, centers, nstart)
data : 数据集名称
centers: 聚类数量,即选择k的值
nstart: 初始配置个数。因为不同的初始启动集合可能会导致不同的结果,所以建议使用几种不同的初始配置。k-means算法将找到导致簇内变异最小的初始配置。

首先使用 fviz_nbclust 函数创建一个图,展示聚类数量及总体平方和之间的关系:
fviz_nbclust(df, kmeans, method = "wss")
通常我们创建这类图形寻找某个K类对应的平方和值开始弯曲或趋于平缓的肘形。

② 差距统计

另一个决定最佳聚类数量的是使用指标:差距统计。它用于比较不同k值聚类差距变化情况。使用cluster包中的clusGap()以及fviz_gap_stat()函数画图:

#calculate gap statistic based on number of clusters
gap_stat <- clusGap(df,
                    FUN = kmeans,
                    nstart = 25,
                    K.max = 10,
                    B = 50)

#plot number of clusters vs. gap statistic
fviz_gap_stat(gap_stat)

3 使用最优k执行kmeans聚类

# 设置随机种子,让结果可以重现
set.seed(1)

# 调用kmeans聚类算法 k = 4
km <- kmeans(df, centers = 4, nstart = 25)

# 查看结果
km

# Show in New Window
# Clustering k = 1,2,..., K.max (= 10): .. done
# Bootstrapping, b = 1,2,..., B (= 50)  [one "." per sample]:
# .................................................. 50 
# R Console
# 
# 
# Show in New Window
# K-means clustering with 4 clusters of sizes 13, 13, 16, 8

可以通过fviz_cluster()函数在二维空间中以散点图方式展示结果:

#plot results of final k-means model
fviz_cluster(km, data = df)

# 使用aggregate()函数查看每个类中变量的均值:
#find means of each cluster
aggregate(USArrests, by=list(cluster=km$cluster), mean)

# cluster     Murder   Assault  UrbanPop        Rape
#               
# 1 3.60000   78.53846  52.07692    12.17692
# 2 10.81538 257.38462  76.00000    33.19231
# 3 5.65625  138.87500  73.87500    18.78125
# 4 13.93750 243.62500  53.75000    21.41250

#add cluster assigment to original data
final_data <- cbind(USArrests, cluster = km$cluster)

#view final data
head(final_data)

4 kmeans 算法的优缺点

优点:

算法计算速度快
能够处理大数据集

缺点:

在执行算法之前需要指定聚类数量
对异常值敏感


关注R小盐,关注科研私家菜(VX_GZH: SciPrivate),有问题请联系R小盐。让我们一起来学习 R语言机器学习与临床预测模型

相关文章

网友评论

      本文标题:R语言机器学习与临床预测模型71--KMeans聚类算法R语言实

      本文链接:https://www.haomeiwen.com/subject/wpbabrtx.html