美文网首页
客户分群-聚类算法

客户分群-聚类算法

作者: 行走记忆时光 | 来源:发表于2018-03-06 19:46 被阅读0次

    机器学习算法分类

    有监督学习

    有训练样本

    • 分类模型
    • 预测模型

    无监督学习

    无训练样本

    • 关联模型
    • 聚类模型

    聚类算法

    介绍

    • 聚类就是将一组对象划分成簇(cluster),使簇内对象相似性尽量大,而簇间对象相似性尽量小。
    • 划分法
    • 层次法
    • 基于密度的方法
    • 基于网格的方法
    • 基于模型的方法

    比较

    聚类
    • 无监督学习方式:需要解决将若干无标记对象进行划分的问题,使之成为有意义的聚类。
    • 聚类数目未知 :需要以某种距离度量为基础,将所有对象进行分类,使得同一聚类之间距离最小,不同聚类之间距离最大。
    分类
    • 有监督学习方式:利用已经过标记的对象进行学习(训练),构造模型,然后用其对新对象进行标记。
    • 聚类数目已知 :对每个新对象标记为目标数据库中已存在的类别。
    聚类算法的应用
    商业
    • 市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说消费习惯。
    生物学
    • 用来动植物分类和对基因进行分类,获取对种群固有结构的认识。
    保险
    • 聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅区域,价值,来鉴定一盒城市的房产分组。

    K均值聚类算法详细介绍

    K均值也成 K-means 算法,即快速聚类
    K-means 聚类思想

    以空间中K个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐层次更新各聚类中心的值,直至得到最好的聚类结果。

    聚类变量
    • 变量类型: 数值型
    • 输入变量 :有
    • 输出变量:无
    相似度测度
    • 采用欧氏距离测度数据之间的差异程度
    聚类中心
    • 类的重心
    收敛准则
    • 误差平方和函数
    算法的优点
    • 算法快速、简单
    • 对大数据集有较高的效率并且是可伸缩性的
    • 时间复杂度近于线性,而且适合挖掘大规模的数据集
    算法缺点
    • 在K-means算法中 K 是事先给定的,这个K 值的选定是非常难以估计的。
    • 初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效地聚类结果。
    • 只适用于连续数值型输入变量。

    相关文章

      网友评论

          本文标题:客户分群-聚类算法

          本文链接:https://www.haomeiwen.com/subject/cbkrfftx.html