数据挖掘

作者: 清水包哟 | 来源:发表于2018-10-24 18:43 被阅读6次

    流程

    1. 商业理解

      对现行商业问题的剖析,根据网络数据,文档等对商业问题的一个初步理解,为数据挖掘提供方向。

      比如对旧有商业模型的理解,对现行趋势的分析等。

    2. 数据理解

      对现有数据的初步分析,使用统计,探测等方法对现有数据有一个大致上的了解,为下一步骤做准备。

      比如根据统计结果查看属性的可用性与分布情况。

    3. 数据准备

      对现有数据采取过滤无效数据、转换数据值、生成新属性、异常处理等操作来产生出可用于数据挖掘模型建立的数据。

      具体流程:

      • 清洗数据:处理数据中缺失和无效值,

      • 构建数据:根据已有数据,构建更适合与数据挖掘的新数据字段,

      • 选择数据:分析与过滤掉与商业问题不相关的数据字段,

      • 格式化数据:根据算法不同改变数据形式

    4. 建立模型

      将数据分成训练集与检验集,使用训练集建立模型,使用检验集检验模型得出结果

    模型训练算法

    聚类算法K-means

    顾名思义,这个算法是与K相关的一个方法,事实也是如此。

    对于一个大的集群,该方法通过对以下三步的不停迭代得出结果:

    1. 确定K值,K值表示需要将这个大的集群分成多少个小的簇(聚类)。然后虚拟K个中心位于集群坐标系内。
    2. 计算集群坐标系内所有点与K个中心点的位置,将距离中心点最近的点划归一簇。
    3. 根据每一簇的所有点计算这一簇的重心,将其作新的K个中心点重复这一过程。

    为何要迭代

    经过证明,算法是必然收敛的。意思也就是说,在N次迭代后,K个中心点都趋于稳定,不会发生大的变动。

    缺点

    • 不适合在坐标系中呈现形状怪异的集群,比如月亮型此类的非凸形状的聚类
    • 不适合有属性参数值间差异过大(连续值之间跨度过大)的集群

    适用范围

    1. 小规模的球形或圆形数据
    2. 高纬度数据(属性多),纬度越高聚类效果越好

    相关文章

      网友评论

        本文标题:数据挖掘

        本文链接:https://www.haomeiwen.com/subject/fmuxtqtx.html