美文网首页程序员
认识数据挖掘

认识数据挖掘

作者: 行走记忆时光 | 来源:发表于2018-01-25 11:41 被阅读0次

    数据挖掘的方向

    数据库技术角度
    统计学角度
    机器学习角度

    一,数据挖掘的发展动力

    1,数据量的增长

    • 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。

    2,数据量繁多,缺乏寻找有用的信息

    3,数据仓库技术金额数据挖掘技术

    • 数据仓库(Data Warehouse)和在线分析处理(OLAP)
    • 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)
    数据库技术的演化
    • 文件系统(1960s和以前)
    • 层次数据库和网状数据库(1970s)
    • 关系数据模型,关系数据库管理系统(RDBMS)的实现(1980s早期)
    • 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等)
    • 面向应用的数据库系统(spatial数据库,时序数据库,多媒体数据库等等)(1980s晚期)
    • 数据挖掘,数据仓库,多媒体数据库和网络数据库(1990s)
    • 流数据管理和挖掘
      基于各种应用的数据挖掘
      XML数据库和整合的信息系统

    二,什么是数据挖掘

    数据挖掘(从数据中发现知识)
    • 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识
    • 挖掘的不仅仅是数据,知识挖掘。
    数据挖掘的引申
    • 数据库中的知识挖掘(KDD)
      知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获

    数据挖掘的应用

    • 数据分析和决策支持
    1 市场分析和管理
    (1) 数据从哪里来
    • 信用卡交易,会员卡,商家优惠,客户服务,用户行为记录
    (2) 目标市场
    • 构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等
    • 确定顾客的购买模式
    (3) 交叉市场分析

    货物销售之间的相互联系和相关性,以及基于这种联系上的预测

    (4) 顾客分析
    • 哪类顾客购买那种商品
    • 聚类分析或分类预测
    (5) 客户需求分析
    • 确定适合不同顾客的最佳商品,用户购买商品分类
    • 预测何种因素能够吸引新顾客,分析顾客购买产品的特征
    (6) 概要信息提供
    • 多维度的综合报告
    • 统计概要信息(数据的集中趋势和变化)
    2 公司风险分析和管理
    (1)财务计划
    • 现金流转分析和预测
    • 交叉区域分析和时间序列分析(财务资金比率,趋势分析等)
    (2) 资源计划
    • 总结和比较资源花费
    (3) 市场竞争
    • 对竞争者和市场趋势的监控
    • 将顾客按等级分组和基于等级的定价过程
    • 将定价策略应用于竞争更激烈的市场中
    3 欺诈行为检测和异常模式的发现
    (1)方法
    • 对欺骗行为进行聚类和建模,并进行孤立点分析
    (2) 应用
    • 卫生保健、零售业、信用卡服务、电信等
      汽车保险:相撞事件的分析
      非法交易

    • 医疗保险
      职业病人,医生以及相关数据分析
      不必要的或相关的测试

    • 电信 :电话呼叫欺骗行为
      电话呼叫模型 :呼叫目的地,持续时间,日或周呼叫次数。分析该模型发现与期待标准的偏差

    • 零售行业

    • 欺骗检测和异常模式的监测(孤立点)

    3 其他应用
    • 文本挖掘(新闻组,电子邮件,文档)和WEB挖掘
      数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为,分析网络销售的有效性。
    • 流数据挖掘
    • DNA和数据分析

    数据挖掘的步骤

    业务模式识别
    • 了解应用的领域,应用的目标和相关的知识
    创建目标数据集
    • 选择数据
    数据清理和预处理
    数据缩减和变换
    • 找到有用的特征,维数缩减/变量缩减,不变量的表示。
    选择数据挖掘的功能
    • 数据总结、分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等。
    数据挖掘算法
    模式评估和知识表示
    • 可视化,转换,消除冗余
    运用发现的知识

    相关文章

      网友评论

        本文标题:认识数据挖掘

        本文链接:https://www.haomeiwen.com/subject/npxvaxtx.html