R语言机器学习与临床预测模型71--KMeans聚类算法R语言实

作者: 科研私家菜 | 来源:发表于2022-07-20 07:17 被阅读0次

R语言机器学习与临床预测模型71--KMeans聚类算法R语言实
R语言机器学习与临床预测模型22--预测模型常用构建方法
R语言机器学习与临床预测模型25--净重新分类指数
R语言机器学习与临床预测模型28--决策曲线
R语言机器学习与临床预测模型30--主成分分析(PCA)
R语言机器学习与临床预测模型23--回归模型可视化
R语言机器学习与临床预测模型24--C-statistics&C
R语言机器学习与临床预测模型26--综合判别改善指数
R语言机器学习与临床预测模型27--模型校准度评价
R语言机器学习与临床预测模型29--ROC曲线及AUC计算

R小盐准备介绍R语言机器学习与预测模型的学习笔记

你想要的R语言学习资料都在这里，快来收藏关注【科研私家菜】

01 KMeans聚类算法

聚类是从数据集中对观测值进行聚类的机器学习方法。它的目标是聚类相似观测值，不同类别之间差异较大。聚类是一种无监督学习方法，因为它仅尝试从数据集中发现结构，而不是预测应变量的值。
最常用的聚类算法就是k-means聚类算法。k-means聚类算法把数据集中每个观测值分为K个类别。每个分类中的观测值相当类似，K类之间彼此差异较大。实际应用中执行下列几步实现k-means聚类算法：
1.确定K值
2.将每个观察结果随机分配到一个初始簇中，从1到K。
3.执行以下步骤，直到集群分配停止变化。

02 R 实现kmeans聚类算法

library(factoextra)
library(cluster)

#load data
df <- USArrests

#remove rows with missing values
df <- na.omit(df)

#scale each variable to have a mean of 0 and sd of 1
df <- scale(df)

#view first six rows of dataset
head(df)

02 寻找最佳聚类数量

① 总体平方和

执行kmeans聚类算法，我们可以使用内置包stat中的kmeans()函数，语法如下：
kmeans(data, centers, nstart)
data : 数据集名称
centers: 聚类数量,即选择k的值
nstart: 初始配置个数。因为不同的初始启动集合可能会导致不同的结果，所以建议使用几种不同的初始配置。k-means算法将找到导致簇内变异最小的初始配置。

首先使用 fviz_nbclust 函数创建一个图，展示聚类数量及总体平方和之间的关系：
fviz_nbclust(df, kmeans, method = "wss")
通常我们创建这类图形寻找某个K类对应的平方和值开始弯曲或趋于平缓的肘形。

② 差距统计

另一个决定最佳聚类数量的是使用指标：差距统计。它用于比较不同k值聚类差距变化情况。使用cluster包中的clusGap()以及fviz_gap_stat()函数画图：

#calculate gap statistic based on number of clusters
gap_stat <- clusGap(df,
                    FUN = kmeans,
                    nstart = 25,
                    K.max = 10,
                    B = 50)

#plot number of clusters vs. gap statistic
fviz_gap_stat(gap_stat)

3 使用最优k执行kmeans聚类

# 设置随机种子，让结果可以重现
set.seed(1)

# 调用kmeans聚类算法 k = 4
km <- kmeans(df, centers = 4, nstart = 25)

# 查看结果
km

# Show in New Window
# Clustering k = 1,2,..., K.max (= 10): .. done
# Bootstrapping, b = 1,2,..., B (= 50)  [one "." per sample]:
# .................................................. 50 
# R Console
# 
# 
# Show in New Window
# K-means clustering with 4 clusters of sizes 13, 13, 16, 8

可以通过fviz_cluster()函数在二维空间中以散点图方式展示结果：

#plot results of final k-means model
fviz_cluster(km, data = df)

# 使用aggregate()函数查看每个类中变量的均值：
#find means of each cluster
aggregate(USArrests, by=list(cluster=km$cluster), mean)

# cluster     Murder   Assault  UrbanPop        Rape
#               
# 1 3.60000   78.53846  52.07692    12.17692
# 2 10.81538 257.38462  76.00000    33.19231
# 3 5.65625  138.87500  73.87500    18.78125
# 4 13.93750 243.62500  53.75000    21.41250

#add cluster assigment to original data
final_data <- cbind(USArrests, cluster = km$cluster)

#view final data
head(final_data)

4 kmeans 算法的优缺点

优点：

算法计算速度快
能够处理大数据集

缺点：

在执行算法之前需要指定聚类数量
对异常值敏感

关注R小盐，关注科研私家菜(VX_GZH: SciPrivate)，有问题请联系R小盐。让我们一起来学习 R语言机器学习与临床预测模型

网友评论

本文标题：R语言机器学习与临床预测模型71--KMeans聚类算法R语言实

本文链接：https://www.haomeiwen.com/subject/wpbabrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

R语言机器学习与临床预测模型71--KMeans聚类算法R语言实

R小盐准备介绍R语言机器学习与预测模型的学习笔记

你想要的R语言学习资料都在这里，快来收藏关注【科研私家菜】

01 KMeans聚类算法

02 R 实现kmeans聚类算法

02 寻找最佳聚类数量

① 总体平方和

② 差距统计

3 使用最优k执行kmeans聚类

4 kmeans 算法的优缺点

优点：

缺点：

相关文章

R语言机器学习与临床预测模型71--KMeans聚类算法R语言实

R语言机器学习与临床预测模型22--预测模型常用构建方法

R语言机器学习与临床预测模型25--净重新分类指数

R语言机器学习与临床预测模型28--决策曲线

R语言机器学习与临床预测模型30--主成分分析(PCA)

R语言机器学习与临床预测模型23--回归模型可视化

R语言机器学习与临床预测模型24--C-statistics&C

R语言机器学习与临床预测模型26--综合判别改善指数

R语言机器学习与临床预测模型27--模型校准度评价

R语言机器学习与临床预测模型29--ROC曲线及AUC计算

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

R语言机器学习与临床预测模型71--KMeans聚类算法R语言实

R小盐准备介绍R语言机器学习与预测模型的学习笔记

你想要的R语言学习资料都在这里， 快来收藏关注【科研私家菜】

01 KMeans聚类算法

02 R 实现kmeans聚类算法

02 寻找最佳聚类数量

① 总体平方和

② 差距统计

3 使用最优k执行kmeans聚类

4 kmeans 算法的优缺点

优点：

缺点：

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

你想要的R语言学习资料都在这里，快来收藏关注【科研私家菜】