美文网首页Python数据挖掘
Python数据挖掘001-基础知识

Python数据挖掘001-基础知识

作者: 科技老丁哥 | 来源:发表于2019-12-05 09:52 被阅读0次

    1. 一些基本概念

    数据挖掘:简而言之,就是从大量数据中中淘金,发掘出隐含的,未知的,对决策有潜在应用价值的关系,模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性巨册支持的方法,工具和过程。

    数据挖掘是利用各种分析工具在大连数据中寻找规律和发现模型与数据之间关系的过程,是一门统计学,数据库技术和人工智能技术结合的综合科学。

    所以数据挖掘首先要有大量数据,(或许是大数据范围?),然后在通过一些分析方法,技术手段挖掘出这些数据中有价值的信息。

    比如对某餐饮企业,其大量数据来源于该企业自己采集的各类菜品销量,成本单价,会员消费,促销活动等内部数据,还有天气,节假日,竞争对手,周边商业氛围等外部数据。

    我们要采取的挖掘方法有:分类任务,预测,聚类分析,关联规则,时序模式,偏差检测,只能推荐等。

    通过挖掘要达到的目标是实现菜品智能推荐,促销效果分析,客户价值分析,新店选址优化,热销/滞销菜品分析,销量趋势预测等。这些目标基本上企业通用型的目标。

    2. 数据挖掘项目的流程

    一个数据挖掘项目的流程可以分为:定义挖掘目标,数据采集,数据探索,数据预处理,挖掘建模,模型评估,项目部署和发布。


    2.1 定义挖掘目标

    首先要明确挖掘项目的目标,期望得到什么样的效果。

    2.2 数据采集

    从客户提供的大量数据中抽取一些样本子集,抽取的标准有:相关性,可靠性,有效性,而不是全部的数据,精选数据也是一门技术活。

    高质量的数据一般具有如下特点:1.资料完整,各项指标齐全。2. 数据准确无误,反应的都是正常而不是异常状态下的水平。

    对高质量的数据,如果量太大,也可以进一步抽样,抽样方法有随机抽样,等距抽样,分层抽样(这样的抽样结果具有更好的代表性,进而使模型具有更好的拟合精度),分类抽样等。

    2.3 数据探索

    主要探索:样本有没有明显的规律或趋势,有没有出现从未设想过的数据状态,属性之间有什么相关性等。

    数据探索主要包括:异常值分析,缺失值分析,相关性分析,周期性分析等。

    2.4 数据预处理

    数据降维处理,缺失值处理,噪声处理,数据筛选,变量转换,异常值处理,数据标准化,主成分分析,特征选择,数据规约等。

    数据探索和预处理的目的是为了保证样本数据的质量,从而保证模型质量。

    2.5 挖掘建模

    明确本挖掘项目属于哪类问题(分类,聚类,关联规则,时序模型,智能推荐等?),选用哪种算法建模。

    这是核心环节,大概有:基于关联规则算法的动态菜品智能推荐,基于聚类算法的餐饮客户价值分析,基于分析和预测算法的菜品销量预测,基于整体优化的新店选址等。

    2.6 模型评估

    模型评估的目的就是从多种模型中自动找出一个最好的模型,同时要根据业务对模型进行解释和应用。

    参考资料:

    《Python数据分析和挖掘实战》张良均等

    相关文章

      网友评论

        本文标题:Python数据挖掘001-基础知识

        本文链接:https://www.haomeiwen.com/subject/witdgctx.html