美文网首页
[R - ml]聚类

[R - ml]聚类

作者: XuXiaolu | 来源:发表于2018-11-29 11:11 被阅读4次

社交网络用户画像

美国的中学生在社交网站上的信息聚类

teens = read.csv('E:/rpath/snsdata.csv')
dim(teens)
str(teens)

性别,年龄,有多少个朋友
个人描述的内容
谈论内容:足球、游泳、运动、毒品、饮酒、死亡...

table(teens$gender)
table(teens$gender, useNA = 'ifany')

女性占了大多数,还有些没性别,有userNA 统计

13 - 20 岁是中学生,把其他年龄标成 NA

teens$age = ifelse(teens$age >= 13 & teens$age < 20, teens$age, NA)
summary(teens$age)

数据预处理

为了发方便后续的距离计算,我们需要把性别这个分类变量修改成数字,
显然男,女之间,以及有性别数据与NA之间,我们可以用0,1区分

teens$female = ifelse(teens$gender == 'F' &! is.na(teens$gender), 1, 0)
teens$no_gender = ifelse(is.na(teens$gender), 1, 0)
table(teens$gender, useNA = 'ifany')
prop.table(table(teens$gender, useNA = 'ifany'))
table(teens$female, useNA = 'ifany')
table(teens$no_gender, useNA = 'ifany')

对于年龄,我们可以考虑利用均值来替代NA

ave_age = ave(teens$age, teens$gradyear, FUN = function(x) mean(x, na.rm = TRUE))
teens$age = ifelse(is.na(teens$age), ave_age, teens$age)
summary(teens$age)

ave_age:根据毕业的年,计算年龄均值

建立模型

前4个特征毕业年,性别,年龄,朋友数在这里不作为输入

interests = teens[5:40]

先行进行数据 z-score 处理

interests_z = as.data.frame(lapply(interests, scale))
teen_clusters = kmeans(interests_z, 5)
  • 参数一:数据集
  • 参数二:分成几个族

模型评估

teen_clusters$size
teen_clusters$centers # 每一类的各项得分
  • 第一类谈啥都少,内向不说话
  • 第二类谈性
  • 第三类谈音乐、毒品
  • 第四类谈圣经
  • 第五类谈体育

模型分析

teens$cluster = teen_clusters$cluster
teens[1:5, c('cluster', 'gender', 'age', 'friends')] # 只看前五条数据

不同的cluster 的年龄,性别

aggregate(data = teens, age ~ cluster, mean)
aggregate(data = teens, female ~ cluster, mean)

不同cluster 的朋友数目

aggregate(data = teens, friends ~ cluster, mean)

相关文章

  • [R - ml]聚类

    社交网络用户画像 美国的中学生在社交网站上的信息聚类 性别,年龄,有多少个朋友个人描述的内容谈论内容:足球、游泳、...

  • MLIib基本统计

    MLIib全貌ML Algorithms (ML 算法): 常用的学习算法,如分类,回归,聚类和协同过滤Featu...

  • 层次聚类R型聚类

    层次聚类R型聚类是对对象的观察变量进行分类,它使具有共同特征的变量聚在一起,以便可以从不同类中分别选出具有代表性的...

  • SPSS-聚类分析

    根据聚类对象的不同可分为以下两种: 样本聚类,又称Q型聚类 变量聚类,又称R型聚类 SPSS的Classify子菜...

  • 2019-03-05

    ML——聚类 聚类是将同类型的对象聚为不同类别的过程,具有高类内相似性,低类间相似性的特点,是一种无监督学习。无监...

  • R语言-18聚类

    介绍及应用 是一种无监督的学习算法,根据样本之间的距离或者其他度量,把相似的样本聚集在一起,从而将样本划分出多个类...

  • R: 距离,聚类,建树

    R有自己的计算样本距离(dist)和聚类(hclust)的方法/函数,各自包含多种算法据数据特征选择。另外在生态学...

  • 【r<-高级|聚类】层次聚类与划分聚类

    聚类分析是一种数据归约技术,旨在揭露一个数据集中观测值的子集。它可以把大量的观测值归约为若干类。这里的类被定义为若...

  • 沧县医院产房

    奥迪R8ML

  • 聚类分析8—顺序聚类和模糊聚类(数量生态学:R语言的应用 第四章

    数量生态学:R语言的应用 第四章 聚类分析8—顺序聚类和模糊聚类 今天是数量生态学:R语言的应用 第四章 聚类分析...

网友评论

      本文标题:[R - ml]聚类

      本文链接:https://www.haomeiwen.com/subject/ftvxcqtx.html