[R - ml]聚类

作者: XuXiaolu | 来源:发表于2018-11-29 11:11 被阅读4次

[R - ml]聚类
MLIib基本统计
层次聚类R型聚类
SPSS-聚类分析
2019-03-05
R语言-18聚类
R: 距离，聚类，建树
【r<-高级|聚类】层次聚类与划分聚类
沧县医院产房
聚类分析8—顺序聚类和模糊聚类（数量生态学：R语言的应用第四章

社交网络用户画像

美国的中学生在社交网站上的信息聚类

teens = read.csv('E:/rpath/snsdata.csv')
dim(teens)
str(teens)

性别，年龄，有多少个朋友
个人描述的内容
谈论内容：足球、游泳、运动、毒品、饮酒、死亡...

table(teens$gender)
table(teens$gender, useNA = 'ifany')

女性占了大多数，还有些没性别，有userNA 统计

13 - 20 岁是中学生，把其他年龄标成 NA

teens$age = ifelse(teens$age >= 13 & teens$age < 20, teens$age, NA)
summary(teens$age)

数据预处理

为了发方便后续的距离计算，我们需要把性别这个分类变量修改成数字，
显然男，女之间，以及有性别数据与NA之间，我们可以用0,1区分

teens$female = ifelse(teens$gender == 'F' &! is.na(teens$gender), 1, 0)
teens$no_gender = ifelse(is.na(teens$gender), 1, 0)

table(teens$gender, useNA = 'ifany')
prop.table(table(teens$gender, useNA = 'ifany'))
table(teens$female, useNA = 'ifany')
table(teens$no_gender, useNA = 'ifany')

对于年龄，我们可以考虑利用均值来替代NA

ave_age = ave(teens$age, teens$gradyear, FUN = function(x) mean(x, na.rm = TRUE))
teens$age = ifelse(is.na(teens$age), ave_age, teens$age)
summary(teens$age)

ave_age：根据毕业的年，计算年龄均值

建立模型

前4个特征毕业年，性别，年龄，朋友数在这里不作为输入

interests = teens[5:40]

先行进行数据 z-score 处理

interests_z = as.data.frame(lapply(interests, scale))

teen_clusters = kmeans(interests_z, 5)

参数一：数据集
参数二：分成几个族

模型评估

teen_clusters$size
teen_clusters$centers # 每一类的各项得分

第一类谈啥都少，内向不说话
第二类谈性
第三类谈音乐、毒品
第四类谈圣经
第五类谈体育

模型分析

teens$cluster = teen_clusters$cluster
teens[1:5, c('cluster', 'gender', 'age', 'friends')] # 只看前五条数据

不同的cluster 的年龄，性别

aggregate(data = teens, age ~ cluster, mean)
aggregate(data = teens, female ~ cluster, mean)

不同cluster 的朋友数目

aggregate(data = teens, friends ~ cluster, mean)

网友评论

本文标题：[R - ml]聚类

本文链接：https://www.haomeiwen.com/subject/ftvxcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

[R - ml]聚类

社交网络用户画像

数据预处理

建立模型

模型评估

模型分析

不同的cluster 的年龄，性别

不同cluster 的朋友数目

相关文章

[R - ml]聚类

MLIib基本统计

层次聚类R型聚类

SPSS-聚类分析

2019-03-05

R语言-18聚类

R: 距离，聚类，建树

【r<-高级|聚类】层次聚类与划分聚类

沧县医院产房

聚类分析8—顺序聚类和模糊聚类（数量生态学：R语言的应用第四章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读