数据挖掘:从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、具有价值的信息和知识的过程。
数据挖掘交叉性:统计学、算法、数据可视化、数据库、机器学习、市场营销等学科。
数据挖掘误区:数据挖掘是对某些大量数据操作的算法,这些算法能够自动地认识新的知识。
数据挖掘是需要非常高深的分析技能,需要精通高深的挖掘算法,需要熟练程序开发。
实际情况:人们处理商业问题的某些方法,通过适量的数据挖掘获取有价值的结果
最好的挖掘工程师是熟悉和理解业务的人。
与分析的区别:
项目
数据分析
数据挖掘
定义
根据分析目的,用适当的分析方法及工具,对手机来的数据进行处理与分析,提前有价值的信息,发挥数据的作用
从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、具有价值的信息和知识的过程。
作用
现状分析、原因分析、预测分析
解决四类问题:分类、聚类、关联、预测
方法
对比分析、分组分析、交叉分析、回归分析
决策树、神经网络、关联分析、聚类分析等
结果
指标统计量结果,如总和、平均值等
输出模型或规则
模型与算法
模型
定量:数学公式(Y=a*X)
定性:规则(年龄>30岁and收入>1万元)
算法:实现数据挖掘技术、模型的具体步骤与方法。
数据挖掘常见问题
从商业角度,需要解决哪些问题?转为数据挖掘问题
用户流失预测
分类问题
促销活动相应
目标市场细分
聚类问题
交叉销售提升
关联问题
未来销售预测
预测问题
分类特点
分类型的目标变量(Y)是监督学习;(无监督的学习:晚上我们拍星空图片,然后不去标注每个星星的变化,要求计算机找出每个星星的运动轨迹;有监督学习我们标识每个星星,然后让计算机学习,这就是有监督学习;有监督学习,数据比较精确,确定方向,但是样本太大,人工标识难度大;无监督学习容易获得大量数据,没有标识,方向感不强。强化学习,计算机在人为给定的方向下,自己试着走一个方向,然后有人告诉它好不好,这就是反馈信息。)
使用已知的目标分裂的历史样本来训练;
需要对未知分类的样本预测所属的分类。
常见的分类方法
决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归。
分析商业问题
用户流失预测、促销活动响应、用户信用评估。
聚类特点
无分类目标变量(Y)无监督学习
物以类聚思想。
常见聚类算法
划分聚类、层次聚类、密度聚类、网络聚类、基于模型聚类。
聚类商业问题
目标市场细分
现有客户细分
关联特点
无目标变量(Y)无监督学习
基于数据项关联,识别频繁发生的模式
关联商业问题
哪些商品同时购买几率高?
如何提高商品销售和交叉销售?
预测特点
数值型目标变量(Y)有监督学习
需要已知的历史样本来训练模型
对未知的样本预测其的目标值
预测方法:
简单线性回归;多重线性回归;时间序列
数据挖掘过程
1商业理解
确定商业目标
确定挖掘目标
制定项目方案
2数据理解
数据收集
数据描述
数据探索
质量描述
3数据准备数据准备阶段主要完成在建立数据挖掘模型之前对数据的最后准备工作,在这个阶段,需要把各个子表关联起来,最终形成一张最终数据宽表。
数据导入
数据抽取
数据清洗
数据合并
变量计算
4模型构建数据挖掘工作的核心阶段
准备训练集和验证集
选择使用建模技术
建立模型
模型对比
5模型评估
技术层面
设计对照组进行对比
模型评估指标,如命中率、覆盖率、提升度等指标进行评估。
业务经验
业务专家凭借业务知识对数据挖掘结果进行评估
6模型部署
模型部署是确保数据挖掘结果程序和的关键一步。该阶段的蛀牙结果如下:
营销过程跟踪记录
观测模型衰退进行模型优化
引入新的变量进行模型优化
模型写成程序部署到平台
网友评论