美文网首页
聚类分析(2)聚类技术

聚类分析(2)聚类技术

作者: 秦_Eric | 来源:发表于2019-10-17 18:55 被阅读0次

系列文章:聚类分析(1)之市场细分

需要了解的内容:

  • 方法有哪些

  • 如何选择各种方法

  • 聚类的结果和效果如何衡量

  • 需要注意哪些

  • 源数据要求:数据类型,数据分布,极端值

聚类分析方法分为快速聚类和系统聚类(层次聚类)。快速聚类spss使用的是K-means聚类算法。该聚类方法需要指定聚类数量,通常我们需要多次尝试并分析多少个类合适。聚类分析适合大样本量情况。样本个数超过500,变量数超过50(并不是强制的)。

聚类分析数据类型为数值型,非数值型变量需要做转换,二分类变量(0,1)可以参与聚类分析。聚类多数适用于连续变量,分类变量适用对应分析。

聚类分析对极端值敏感,同时变量数据的量纲也会影响到聚类结果,需要做标准化处理。

结果依赖于第一次初始分类,聚类中绝大多数重要变化均发生在第一次分配中。

聚类分析中,关于分类时,一种是利用相似系数,性质越接近的,相似系数就越接近1或者-1,通过此来确定归类。另一种是利用空间距离,将每一个点看做m维空间上的一个点,并在空间中定义距离。

K-means均值知识

  • 样本间距离测量:在刚开始学聚类,听到最多的就是“组内距离最小化,组间距离最大化”。K-means采用的是欧式距离。计算距离的方式和数据类型有关。因为聚类采用的是距离,不同量纲下,大数之间的距离就会大些,方差更大,对结果的影响程度也就更大,量纲就相当于权重了。

  • K-means是一种迭代式算法,指定聚类数后,先确定初始点,逐步迭代修改分类。因此结果依赖于第一次初始分类,聚类中绝大多数重要变化均发生在第一次分配中。

    (1)设定k值,确定聚类数(软件随机分配聚类中心所需的种子)。

    (2)计算每个记录到类中心的距离(欧氏距离),并分成k类。
    
    (3)然后把k类中心(均值)作为新的中心,重新计算距离。
    
     (4)迭代到收敛标准停止。
    

在spss中可以设定迭代次数。

聚类模型的评估:

来自《Python数据科学:技术详解与商业实践》。聚类效果的评估基于结果的可解释性,通常需要多次聚类才能找到合适的分类。

  1. 轮廓系数

  2. 平方根标准误差

  3. R方

  4. ARI

参考书籍:

  • 《市场研究中的统计分析方法 基础篇》 了解

  • 《spss统计分析高级教程 张文彤》 入门

  • 《Python数据科学:技术详解与商业实践》案例

  • 《多元统计分析 清华大学出版社》 系统介绍

  • 《多元统计分析引论 张尧庭》有配套视频 深入

案例:电信数据聚类分析

原数据

数据包含6个变量(字段),除了客户编号为名义变量外,其他都是连续变量。

  • 客户编号(Customer_ID)

  • 工作日上班时期电话时长(Peak_mins)

  • 工作日下班时期电话时长(OffPeak_mins)

  • 周末电话时长(Weekend_mins)

  • 国际电话时长(International_mins)

  • 总通话时长(Total_mins)

  • 平均每次通话时长(average_mins)

原数据分布了解

不论什么做什么数据分析,第一步就是查看原始数据的分布,这里应该查看一下各变量的数据分布状态:均值,极大极小值,方差,缺失情况。

通过spss分析-描述

可以看出1.量纲差异较大。2极大极小值组距很大。从这方面可以讲,我们需要做标准化处理。先尝试不做标准化处理。

决定细分人群数

通过业务知识等,决定先设定5个细分人群,后面可以再尝试4和6。

标准化处理

先做标准化处理:spss分析-描述。在左下角中有一个“将标准化值另存为变量”,标准化为Z分数。确定后会生成新的标准化后的变量。

K-means聚类

对标准化后的变量聚类:分析-分类-K-means

选择迭代次数同时将分类结果存在表中。

默认迭代次数是10次,迭代次数过少,可能已经迭代完了仍无法收敛,所以需要增加迭代次数。将分类结果保存在表中,是指对每个样本标注被分到哪一类了。这一步的目的是为了后续通过其他方法(比如比较均值)来看5类人群之间的差异。停

聚类结果

输出4个表格,都是经过标准化处理的。主要查看是否已经迭代收敛。然后下一步就是做均值比较等,目的是查看5类人群是否有差异,分类是否合理。同时还可以在对4和6类人群试做分类。聚类分析无法检验标准,

分析结果:做均值比较

通过比较均值,可以了解5类人群之间的差异

输出的结果

从结果中可以看出

第一类:高端商用客户,总通话时间长,工作日上班时间通话比例高

第二类:少使用低端客户,总通话时间短,各时段通话时间都短

第三类:中端商用客户,总通话时间居中,工作日上班时间通话比例高

第四类:中端日常用客户,总通话时间居中,工作日下班时间通话比例高

第五类:长聊客户,每次通话时间长

相关文章

  • 聚类分析(2)聚类技术

    系列文章:聚类分析(1)之市场细分 需要了解的内容: 方法有哪些 如何选择各种方法 聚类的结果和效果如何衡量 需要...

  • Day4|Python数据分析与挖掘实战|聚类分析

    聚类分析 主要内容: 1. 聚类分析思想 2. 主要聚类方法 3. 类间、类内距离的度量 4. 层次聚类(...

  • 聚类分析

    1,聚类方法: Python 主要聚类分析方法: 2,聚类分析算法评估 ☉ Purity评估方法 ☉ RI评价法 ...

  • R 实现聚类分析_07Jul2020

    聚类分析 层次聚类 kmeans 使用eclust进行kmeans聚类或层次聚类

  • 子空间聚类

    姓名:贺文琪 学号:19021210758 【嵌牛导读】聚类分析是数据挖掘领域中的关键技术之一。高维数据聚类是聚类...

  • 深入推荐引擎相关算法 - 聚类

    聚类分析 什么是聚类分析? 聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster)...

  • 聚类分析-层次聚类法

    聚类分析是一种数据规约技术,可以把大量观测值规约为若干类。 最常用的两种聚类方法是层次聚类法(hierarchic...

  • 数量生态学:R语言的应用 第四章 聚类分析3—非层次聚类

    数量生态学:R语言的应用 第四章 聚类分析3—非层次聚类 在聚类分析中层次聚类被经常使用,层次聚类通过某种相似性测...

  • 层次聚类分析案例(三)

    之前的笔记:聚类介绍:点这里层次聚类分析案例(一)层次聚类分析案例(二) 案例三:基因聚类 获取全基因组表达数据的...

  • 无监督学习 聚类分析①

    聚类分析 介绍 聚类分析是一种数据规约技术,旨在借楼一个数据集中观测值的子集。他可以把大量的观测值归约未若干类。聚...

网友评论

      本文标题:聚类分析(2)聚类技术

      本文链接:https://www.haomeiwen.com/subject/houvmctx.html