美文网首页
数据挖掘概况

数据挖掘概况

作者: AIhenry从入门到放弃 | 来源:发表于2017-08-27 20:01 被阅读0次

    一、数据挖掘的定义

    数据挖掘(Data mining,简称DM),是指从大量的数据中,通过统计人工智能,机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
    数据挖掘是一门交叉学科,覆盖了统计学、数据可视化、算法、数据库、机器学习、市场营销、其他学科等多门学科的知识。

    数据挖掘的误区

    认为:数据挖掘是某些大量数据操作的算法,这些算法能够自动地发现新的知识
    数据挖掘需要非常高深的分析技能,需要精通高深的算法,需要熟练程序开发。
    实际:数据挖掘是人们处理商业问题的某些方法,我们通过它来获得有价值的结果。
    实际上,最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

    二、数据挖掘和数据分析的区别

    数据分析:

    定义:根据分析目的,用适当的分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
    作用:现状分析、原因分析、预测分析
    方法:对比分析、分组分细、交叉分析、回归分析等
    结果:指标统计量结果,如综合、平均值等

    数据挖掘:

    定义:从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
    作用:解决四类问题:分类、聚类、关联、预测
    方法:决策树、神经网络、关联规则、聚类分析等
    结果:输出模型或规则

    模型与算法:

    模型:

    • 定量:数学公式,用来描述需要解决的问题
    • 定性:是包含一种或多种定义的规则,用于指导并帮助解决某类问题

    算法:实现数据挖掘技术、模型的具体步骤与方法

    三、数据挖掘常见问题

    从商业角度,需要解决哪些问题?

    用户流失预测——分类问题
    促销活动响应——分类问题
    目标市场细分——聚类问题
    交叉销售提升——关联问题
    未来销售预测——预测问题

    (一)分类特点
    • 分类型目标变量(Y)——有监督学习
    • 使用已知目标分类的历史样本来训练
    • 需要对未知分类的样本预测所属的分类
      常见分类方法有:决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归等
      分类商业问题:
      用户流失预测促销活动响应用户信用评估等
    (二)聚类特点
    • 无分类目标变量(Y)——无监督学习
    • 物以类聚思想
      常见聚类算法有:划分算法、层次聚类、密度聚类、网格聚类、基于模型聚类等
      聚类商业问题:
      目标市场细分现有客户细分等
    (三)关联特点
    • 无目标变量(Y)——无监督学习
    • 基于数据项关联,识别频繁发生的模式
      常见的关联算法:Aprior算法、Carma算法、序列算法
      关联商业问题:
      哪些商品同时购买几率高如何提高商品销售和交叉销售等
    (四)预测特点
    • 数值型目标变量(Y)——有监督学习
    • 需有已知目标值的历史样本来训练模型
    • 对未知的样本预测其的目标值
      常见的预测方法有:简单线性回归分析、多重线性回归分析、时间序列等
      预测商业问题:
      未来气温预测GDP增长预测收入、用户数预测等

    四、数据挖掘流程

    CRISP-DM数据挖掘方法论:

    • 1、商业理解
    • 2、数据理解
    • 3、数据准备
    • 4、模型构建
    • 5、模型评估
    • 6、模型部署
      阶段一:商业理解
    • 确定商业目标
    • 确定挖掘目标
    • 制定项目方案
      阶段二:数据理解
    • 数据收集
    • 数据描述
    • 数据探索
    • 质量描述
      阶段三:数据准备
    • 数据导入
    • 数据抽取
    • 数据清洗
    • 数据合并
    • 变量计算
      阶段四:模型构建
    • 准备训练集合验证集
    • 选择使用建模技术
    • 建立模型
    • 模型对比
      阶段五:模型评估
    • 技术层面:
      设计对照组进行比较
      评估指标:命中率、覆盖率、提升度等
    • 业务经验
      阶段六:模型部署
    • 营销过程跟踪记录
    • 观察模型衰退变化
    • 引入新的特征优化迷行
    • 模型写成程序固化到平台

    相关文章

      网友评论

          本文标题:数据挖掘概况

          本文链接:https://www.haomeiwen.com/subject/wscidxtx.html