聚类分析（2）聚类技术

聚类分析（2）聚类技术

作者: 秦_Eric | 来源:发表于2019-10-17 18:55 被阅读0次

聚类分析（2）聚类技术
Day4|Python数据分析与挖掘实战|聚类分析
聚类分析
R 实现聚类分析_07Jul2020
子空间聚类
深入推荐引擎相关算法 - 聚类
聚类分析-层次聚类法
数量生态学：R语言的应用第四章聚类分析3—非层次聚类
层次聚类分析案例（三）
无监督学习聚类分析①

系列文章：聚类分析（1）之市场细分

需要了解的内容：

方法有哪些
如何选择各种方法
聚类的结果和效果如何衡量
需要注意哪些
源数据要求：数据类型，数据分布，极端值

聚类分析方法分为快速聚类和系统聚类（层次聚类）。快速聚类spss使用的是K-means聚类算法。该聚类方法需要指定聚类数量，通常我们需要多次尝试并分析多少个类合适。聚类分析适合大样本量情况。样本个数超过500，变量数超过50（并不是强制的）。

聚类分析数据类型为数值型，非数值型变量需要做转换，二分类变量（0,1）可以参与聚类分析。聚类多数适用于连续变量，分类变量适用对应分析。

聚类分析对极端值敏感，同时变量数据的量纲也会影响到聚类结果，需要做标准化处理。

结果依赖于第一次初始分类，聚类中绝大多数重要变化均发生在第一次分配中。

聚类分析中，关于分类时，一种是利用相似系数，性质越接近的，相似系数就越接近1或者-1，通过此来确定归类。另一种是利用空间距离，将每一个点看做m维空间上的一个点，并在空间中定义距离。

K-means均值知识

样本间距离测量：在刚开始学聚类，听到最多的就是“组内距离最小化，组间距离最大化”。K-means采用的是欧式距离。计算距离的方式和数据类型有关。因为聚类采用的是距离，不同量纲下，大数之间的距离就会大些，方差更大，对结果的影响程度也就更大，量纲就相当于权重了。
K-means是一种迭代式算法，指定聚类数后，先确定初始点，逐步迭代修改分类。因此结果依赖于第一次初始分类，聚类中绝大多数重要变化均发生在第一次分配中。

（1）设定k值，确定聚类数（软件随机分配聚类中心所需的种子）。
```
（2）计算每个记录到类中心的距离（欧氏距离），并分成k类。

（3）然后把k类中心（均值）作为新的中心，重新计算距离。

 （4）迭代到收敛标准停止。
```

在spss中可以设定迭代次数。

聚类模型的评估：

来自《Python数据科学：技术详解与商业实践》。聚类效果的评估基于结果的可解释性，通常需要多次聚类才能找到合适的分类。

轮廓系数
平方根标准误差
R方
ARI

参考书籍：

《市场研究中的统计分析方法基础篇》了解
《spss统计分析高级教程张文彤》入门
《Python数据科学：技术详解与商业实践》案例
《多元统计分析清华大学出版社》系统介绍
《多元统计分析引论张尧庭》有配套视频深入

案例：电信数据聚类分析

原数据

数据包含6个变量（字段），除了客户编号为名义变量外，其他都是连续变量。

客户编号（Customer_ID）
工作日上班时期电话时长（Peak_mins）
工作日下班时期电话时长（OffPeak_mins）
周末电话时长（Weekend_mins）
国际电话时长（International_mins）
总通话时长（Total_mins）
平均每次通话时长（average_mins）

原数据分布了解

不论什么做什么数据分析，第一步就是查看原始数据的分布，这里应该查看一下各变量的数据分布状态：均值，极大极小值，方差，缺失情况。

通过spss分析-描述

可以看出1.量纲差异较大。2极大极小值组距很大。从这方面可以讲，我们需要做标准化处理。先尝试不做标准化处理。

决定细分人群数

通过业务知识等，决定先设定5个细分人群，后面可以再尝试4和6。

标准化处理

先做标准化处理：spss分析-描述。在左下角中有一个“将标准化值另存为变量”，标准化为Z分数。确定后会生成新的标准化后的变量。

K-means聚类

对标准化后的变量聚类：分析-分类-K-means

选择迭代次数同时将分类结果存在表中。

默认迭代次数是10次，迭代次数过少，可能已经迭代完了仍无法收敛，所以需要增加迭代次数。将分类结果保存在表中，是指对每个样本标注被分到哪一类了。这一步的目的是为了后续通过其他方法（比如比较均值）来看5类人群之间的差异。停

聚类结果

输出4个表格，都是经过标准化处理的。主要查看是否已经迭代收敛。然后下一步就是做均值比较等，目的是查看5类人群是否有差异，分类是否合理。同时还可以在对4和6类人群试做分类。聚类分析无法检验标准，

分析结果：做均值比较

通过比较均值，可以了解5类人群之间的差异

输出的结果

从结果中可以看出

第一类：高端商用客户，总通话时间长，工作日上班时间通话比例高

第二类：少使用低端客户，总通话时间短，各时段通话时间都短

第三类：中端商用客户，总通话时间居中，工作日上班时间通话比例高

第四类：中端日常用客户，总通话时间居中，工作日下班时间通话比例高

第五类：长聊客户，每次通话时间长

相关文章

聚类分析（2）聚类技术
系列文章：聚类分析（1）之市场细分需要了解的内容：方法有哪些如何选择各种方法聚类的结果和效果如何衡量需要...
Day4|Python数据分析与挖掘实战|聚类分析
聚类分析主要内容： 1. 聚类分析思想 2. 主要聚类方法 3. 类间、类内距离的度量 4. 层次聚类（...
聚类分析
1，聚类方法： Python 主要聚类分析方法： 2，聚类分析算法评估 ☉ Purity评估方法 ☉ RI评价法 ...
R 实现聚类分析_07Jul2020
聚类分析层次聚类 kmeans 使用eclust进行kmeans聚类或层次聚类
子空间聚类
姓名：贺文琪学号：19021210758 【嵌牛导读】聚类分析是数据挖掘领域中的关键技术之一。高维数据聚类是聚类...
深入推荐引擎相关算法 - 聚类
聚类分析什么是聚类分析？聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster)...
聚类分析-层次聚类法
聚类分析是一种数据规约技术，可以把大量观测值规约为若干类。最常用的两种聚类方法是层次聚类法（hierarchic...
数量生态学：R语言的应用第四章聚类分析3—非层次聚类
数量生态学：R语言的应用第四章聚类分析3—非层次聚类在聚类分析中层次聚类被经常使用，层次聚类通过某种相似性测...
层次聚类分析案例（三）
之前的笔记：聚类介绍：点这里层次聚类分析案例（一）层次聚类分析案例（二）案例三：基因聚类获取全基因组表达数据的...
无监督学习聚类分析①
聚类分析介绍聚类分析是一种数据规约技术，旨在借楼一个数据集中观测值的子集。他可以把大量的观测值归约未若干类。聚...

网友评论

本文标题：聚类分析（2）聚类技术

本文链接：https://www.haomeiwen.com/subject/houvmctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|聚类分析（2）聚类技术|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！