数据挖掘概况

作者: AIhenry从入门到放弃 | 来源:发表于2017-08-27 20:01 被阅读0次

一、数据挖掘的定义

数据挖掘（Data mining，简称DM），是指从大量的数据中，通过统计人工智能，机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。
数据挖掘是一门交叉学科，覆盖了统计学、数据可视化、算法、数据库、机器学习、市场营销、其他学科等多门学科的知识。

数据挖掘的误区

认为：数据挖掘是某些大量数据操作的算法，这些算法能够自动地发现新的知识
数据挖掘需要非常高深的分析技能，需要精通高深的算法，需要熟练程序开发。
实际：数据挖掘是人们处理商业问题的某些方法，我们通过它来获得有价值的结果。
实际上，最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

二、数据挖掘和数据分析的区别

数据分析：

定义：根据分析目的，用适当的分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。
作用：现状分析、原因分析、预测分析
方法：对比分析、分组分细、交叉分析、回归分析等
结果：指标统计量结果，如综合、平均值等

数据挖掘：

定义：从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。
作用：解决四类问题：分类、聚类、关联、预测
方法：决策树、神经网络、关联规则、聚类分析等
结果：输出模型或规则

模型与算法：

模型：

定量：数学公式，用来描述需要解决的问题
定性：是包含一种或多种定义的规则，用于指导并帮助解决某类问题

算法：实现数据挖掘技术、模型的具体步骤与方法

三、数据挖掘常见问题

从商业角度，需要解决哪些问题？

用户流失预测——分类问题
促销活动响应——分类问题
目标市场细分——聚类问题
交叉销售提升——关联问题
未来销售预测——预测问题

（一）分类特点

分类型目标变量（Y）——有监督学习
使用已知目标分类的历史样本来训练
需要对未知分类的样本预测所属的分类
常见分类方法有：决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归等
分类商业问题：
用户流失预测、促销活动响应、用户信用评估等

（二）聚类特点

无分类目标变量（Y）——无监督学习
物以类聚思想
常见聚类算法有：划分算法、层次聚类、密度聚类、网格聚类、基于模型聚类等
聚类商业问题：
目标市场细分、现有客户细分等

（三）关联特点

无目标变量（Y）——无监督学习
基于数据项关联，识别频繁发生的模式
常见的关联算法：Aprior算法、Carma算法、序列算法
关联商业问题：
哪些商品同时购买几率高、如何提高商品销售和交叉销售等

（四）预测特点

数值型目标变量（Y）——有监督学习
需有已知目标值的历史样本来训练模型
对未知的样本预测其的目标值
常见的预测方法有：简单线性回归分析、多重线性回归分析、时间序列等
预测商业问题：
未来气温预测、GDP增长预测、收入、用户数预测等

四、数据挖掘流程

CRISP-DM数据挖掘方法论：

1、商业理解
2、数据理解
3、数据准备
4、模型构建
5、模型评估
6、模型部署
阶段一：商业理解
确定商业目标
确定挖掘目标
制定项目方案
阶段二：数据理解
数据收集
数据描述
数据探索
质量描述
阶段三：数据准备
数据导入
数据抽取
数据清洗
数据合并
变量计算
阶段四：模型构建
准备训练集合验证集
选择使用建模技术
建立模型
模型对比
阶段五：模型评估
技术层面：
设计对照组进行比较
评估指标：命中率、覆盖率、提升度等
业务经验
阶段六：模型部署
营销过程跟踪记录
观察模型衰退变化
引入新的特征优化迷行
模型写成程序固化到平台

网友评论

本文标题：数据挖掘概况

本文链接：https://www.haomeiwen.com/subject/wscidxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！