3

作者: 吃虫的胜仔 | 来源:发表于2017-11-29 23:46 被阅读10次

    CRoss Industy Standard Process for Data Mining[CRISP-DM]

    1、业务理解:

    需要作出什么决策?

    需要获得哪些信息来作出这些决策?

    什么类型的分析能够获取决策所需的信息?

    2、数据理解:(对数据的不准确理解会造成不正确的分析)

    需要什么数据?

    有什么数据可用?

    数据的重要特征是什么?

    3、数据准备

    收集:收集数据时,可能需要从组织内部的多个来源收集数据。

    清理:使用的数据集肯能有一些问题需要在分析之前解决。这可能包括数据不正确或丢失。

    格式化:可能需要通过更改日期字段的显示方式,重命名字段,甚至旋转数据来格式化数据,类似于使用数据透视表。

    混合:你可能希望将数据与其他数据集进行混合或者组合,以增加其他变量,类似于在excel中使用vlookup函数。

    数据抽样:最后,你可能需要对数据集进行取样,并使用更易于管理的记录数。

    4、分析与建模:(预测第二天的温度,然后通过模型预测第二天的用电量)

    确定用什么方法来解决问题

    确定有助于解决问题的重要因素或变量

    构建解决问题的模型

    运行模型并移至模型评估阶段

    5、模型评估:(确定是否存在一些尚未充分考虑的重要业务问题)

    观察模型上的关键结果

    确保结果在业务问题的情境中有意义

    确定是否继续下面的步骤还是返回上一阶段

    必要时重复多次

    6、模型发布和可视化:

    根据分析,确定呈现见解的最佳方式。

    根据观众,确定呈现见解的最佳方式。

    确保共享的信息不要过量。

    使用结果向观众讲故事。

    对于更复杂的分析,你可能需要向观众演示分析问题解决过程。

    始终注明使用的数据源出处。

    确保你的分析支持需要做出的决策。

    相关文章

      网友评论

        本文标题:3

        本文链接:https://www.haomeiwen.com/subject/parmbxtx.html