美文网首页
数据分析模型之聚类分析

数据分析模型之聚类分析

作者: 二爺 | 来源:发表于2018-09-13 15:51 被阅读59次

    一、定义

    将大量的数据集中后作为样品,从中必然存在一定的相似数据或者规律,基于这个假设将数据分离出来并且发现不同类的特征

    二、应用场景

    聚类分析常用于数据探索或挖掘的前期,做探索性分析;同样适用于样本数量较大的情况下做数据预处理工作。

    三、常用的聚类分析算法

    聚类分析算法基于划分、层次、密度、网格、统计学、模型等类型的算法,典型算法包括:K均值(经典算法)、DBSCAN、两步聚类、BIRCH、谱聚类

    四、解决的问题与缺点

    能解决的问题:数据集可以分为几类;每个类别有多少样本量。
    缺点:无法提供明确的行动指向,聚类结果更多的是为后期挖掘和分析工作提供预处理和参考,无法回答“为什么”和“怎么办”

    五、数据异常对聚类的影响

    K均值异常
    1、数据的异常值
    2、数据的一场量纲(量级单位)
    3、超大量时应该放弃K均值算法

    DBSCAN算法:基于密度寻找被低密度趋于分离的高密度空间,以此来实现不同数据样本的聚类。
    优点:
    1、原始数据集的分布规律没有明显要求,能适应任何数据集分布形状的空间聚类,因此数据适应性更广。
    2、无须制定聚类数量,对结果的先验要求不高
    3、由于DBSCAN可区分核心对象、边界点和噪声点,因此对噪声的过滤效果好,能有效对应数据噪点。

    高纬度聚类处理方法
    1、降维
    2、子空间聚类

    相关文章

      网友评论

          本文标题:数据分析模型之聚类分析

          本文链接:https://www.haomeiwen.com/subject/nhbwgftx.html