美文网首页
数据挖掘 (二)

数据挖掘 (二)

作者: 行走记忆时光 | 来源:发表于2018-02-06 22:18 被阅读0次

    一,体系结构

    典型数据挖掘系统
    数据的来源
    • 数据库服务器,
    • 数据库
    数据挖掘的引擎
    数据挖掘的模式
    数据可视化技术的展示

    二,数据类型

    关系数据库
    • 使用最广泛
    数据仓库
    • 各个分立的数据库统一
    事务数据库
    高级数据库系统和信息库
    • 空间数据库

    • 时间数据库和时间序列数据库
      时间数据库和时间序列数据库都存放与时间有关的数据。
      时间数据库通常存放包含时间相关属性的时间
      时间序列数据库存放随时间变化的值序列
      对时间数据库和时间序列数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。

    • 流数据

    • 多媒体数据库

    • 面向对象数据库和对象 - 关系数据库
      面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现传统数据库的功能,包括持久性,并发控制,可恢复性,一致性,和查询数据库的能力等。
      对象 - 关系数据库基于对象 - 关系 模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。
      面向对象数据库和对象 - 关系 数据库中的数据挖掘会设计一些新的技术,比如处理复杂对象结构,复杂数据类型,类和子类层次结构,构造集成以及方法和过程等等。

    • 异种数据库和遗产(legacy)数据库

    • 文本数据库和网络数据库

    数据挖掘的主要方法

    1,概念/类描述:特性化和区分
    • 归纳 ,总结和对比数据的特性。
    • 例如用户属性分析,电商用户,月消费额超过5000元的用户特征描述:30 - 40 岁之间,固定职业,信用程度良好。
    2, 关联分析
    • 发现数据之间的关联规则,这些规则展示属性 - 值 频繁的在给定的数据中所一起出现的条件。
    • 广泛的应用于购物篮或事务分析
    3,分类和预测
    • 通过构造函数(或模型)用来描述和区别类或概念,用来预测类型标志未知的对象类。
    • 例如,按照耗油量将汽车分类
    • 导出模型的表示: 判定树、分类规则、神经网络
    • 可以用来预报某些未知的或丢失的数字值。
    4,聚类分析
    • 将类似的数据归类到一起,形成一个新的类别进行分析。
    • 组内最大化的相似性,组间最小化的相似性
    5,孤立点分析
    • 孤立点 : 一些与数据的一般行为或模型不一致的孤立数据
    • 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。
    6,趋势和演变分析
    • 描述行为随时间变化的对象的发展规律或趋势
    • 趋势和偏差: 回归分析
    • 序列模式匹配 : 周期性分析
    • 基于类似性的分析
    7, 其他定向模式或统计分析

    模式兴趣度的度量

    比较困难度量

    1,模式兴趣度的度量
    • 易于被人理解
    • 在某种程度上,对于新的或测试数据是有效的
    • 具有潜在效用
    • 新颖的
    • 符合用户确信的某种假设
    2, 模式兴趣度的客观和主观度量、
    • 客观度量 :基于所发现模式的结构和关于他们的统计,比如:支持度(数据多少程度上对结论的支持),置信度等等
    • 主观度量: 基于用户对数据的判断。比如:出乎意料的,新颖的、可行动的等等。

    数据挖掘算法的优化

    • 数据挖掘系统可以仅仅发现有趣的模式
    • 方法
      (1),首先生成所有模式然后过滤那些无趣的
      (2),仅仅生成有趣的模式 - 挖掘查询优化

    数据挖掘学科综合性

    数据挖掘的学科综合.jpg

    数据挖掘的分类

    数据挖掘的分类.jpg
    1,根据所挖掘的数据库分类
    • 关系数据库,事务数据库 ,流式数据库,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,
    2,根据挖掘的知识类型
    • 特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析等等
    • 多种方法的集成和多层机挖掘
    3,根据挖掘所用技术
    • 面向数据库的挖掘,数据仓库,OLAP,机器学习,统计学,可视化等等
    4,根据挖掘所用的应用
    • 金融,电信,银行,欺诈分析,DNA分析,股票市场,WEB挖掘。

    相关文章

      网友评论

          本文标题:数据挖掘 (二)

          本文链接:https://www.haomeiwen.com/subject/mwxvaxtx.html