美文网首页
5. 挖掘建模2 聚类分析

5. 挖掘建模2 聚类分析

作者: 何大炮 | 来源:发表于2018-04-02 13:51 被阅读0次

聚类分析是一种在没有给定划分类型的情况上,根据数据相似度进行样本分组的方法。
和分类模型的区别就是聚类模型是建立在一组没有类标记的数据上,是一种没有监督的学习方法。

聚类分析根据数据间的相识度进行分组,相识度越高的数据间距离越小;反之,越大。

常用的聚类方法

  1. 划分方法
  2. 层次分析
  3. 基于密度
  4. 基于网格
  5. 基于模型

常用聚类算法

  1. K-means聚类:基于距离的非层次聚类算法,在最小化误差函数的基础上,将数据划分为预定的类树k,采用距离作为相似性的评价标准,两个数据对象的距离差距越大,相似性越低。

缺点:1. k值的选择对结果有影响 2. 初始选择的每个中心点会影响后面模型的精度。3. 不能发现非凸形状的簇,或大小差别很大的簇 4. 对噪声和离群点敏感

预处理:
A. 对于连续属性,要进行零-均值规范,再进行距离计算:欧几里得距离,曼哈顿距离,闵可夫斯基距离。多用欧几里得距离,其它距离不一定保证收敛。
B. 对于文档数据,使用余弦相似度量。将文档整理成文档-词矩阵。

算法过程:
A. 从N个样本中随意抽取k个对象作为初始的聚类中心。
B. 分别计算每个样本到各个聚类中心的距离,将样本匹配到距离最近的中心
C. 所用样本分配完后,重新计算每个聚类中心所有数据的平均值作为新的聚类中心。
D. 如果新的聚类中心和原来的比发生了变化,重复B;否则,输出聚类结果。

目标函数:
使用误差平方和SSE作为度量聚类质量的目标函数。平方和越小,越准确。

须知:该结果很大程度上依赖于最初的盲选的中心,结果最后不一定最优,所以最好对同一数据集,多次选着不同的中心使用该算法。

聚类分析算法的评价:
A. purity 评价
B. RI 评价

相关文章

  • 5. 挖掘建模2 聚类分析

    聚类分析是一种在没有给定划分类型的情况上,根据数据相似度进行样本分组的方法。和分类模型的区别就是聚类模型是建立在一...

  • 第一章 数据挖掘基础

    数据挖掘的基本任务:分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐数据挖掘建模过程:1)定义挖掘目标...

  • 数据挖掘任务

    预测建模 分类:离散 回归:连续 关联分析 聚类分析 异常检测仪 练习题: 1.以下是否是数据挖掘任务。 a.根据...

  • 第五章-挖掘建模

    经过数据探索和数据预处理,得到了可以直接建模的数据。数据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、...

  • 第五章 挖掘建模

    经过数据探索与数据预处理,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、...

  • python数据分析与挖掘 | 挖掘建模

    经过数据探索与数据预处理,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立模型,包括:分类与预测、聚类分析...

  • 《python数据分析与挖掘实战》之挖掘建模

    经过数据探索与数据预处理,我们得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规...

  • 手把手教你用SPSSAU做聚类分析

    聚类分析:聚类分析是通过数据建模简化数据的一种方法。“物以类聚,人以群分”正是对聚类分析最好的诠释。本文就具体介绍...

  • 数据挖掘之聚类分析

    聚类分析是什么 相对于分类,聚类是一种不清楚类别的种类,或类别不清楚的情况下,通过计算数据之间的相似度(其中用得最...

  • 挖掘建模概述

    1、概述 1.1数据挖掘的基本任务 基本任务包括分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法...

网友评论

      本文标题:5. 挖掘建模2 聚类分析

      本文链接:https://www.haomeiwen.com/subject/dxnthftx.html