一,体系结构

数据的来源
- 数据库服务器,
- 数据库
数据挖掘的引擎
数据挖掘的模式
数据可视化技术的展示
二,数据类型
关系数据库
- 使用最广泛
数据仓库
- 各个分立的数据库统一
事务数据库
高级数据库系统和信息库
-
空间数据库
-
时间数据库和时间序列数据库
时间数据库和时间序列数据库都存放与时间有关的数据。
时间数据库通常存放包含时间相关属性的时间
时间序列数据库存放随时间变化的值序列
对时间数据库和时间序列数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。 -
流数据
-
多媒体数据库
-
面向对象数据库和对象 - 关系数据库
面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现传统数据库的功能,包括持久性,并发控制,可恢复性,一致性,和查询数据库的能力等。
对象 - 关系数据库基于对象 - 关系 模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。
面向对象数据库和对象 - 关系 数据库中的数据挖掘会设计一些新的技术,比如处理复杂对象结构,复杂数据类型,类和子类层次结构,构造集成以及方法和过程等等。 -
异种数据库和遗产(legacy)数据库
-
文本数据库和网络数据库
数据挖掘的主要方法
1,概念/类描述:特性化和区分
- 归纳 ,总结和对比数据的特性。
- 例如用户属性分析,电商用户,月消费额超过5000元的用户特征描述:30 - 40 岁之间,固定职业,信用程度良好。
2, 关联分析
- 发现数据之间的关联规则,这些规则展示属性 - 值 频繁的在给定的数据中所一起出现的条件。
- 广泛的应用于购物篮或事务分析
3,分类和预测
- 通过构造函数(或模型)用来描述和区别类或概念,用来预测类型标志未知的对象类。
- 例如,按照耗油量将汽车分类
- 导出模型的表示: 判定树、分类规则、神经网络
- 可以用来预报某些未知的或丢失的数字值。
4,聚类分析
- 将类似的数据归类到一起,形成一个新的类别进行分析。
- 组内最大化的相似性,组间最小化的相似性
5,孤立点分析
- 孤立点 : 一些与数据的一般行为或模型不一致的孤立数据
- 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。
6,趋势和演变分析
- 描述行为随时间变化的对象的发展规律或趋势
- 趋势和偏差: 回归分析
- 序列模式匹配 : 周期性分析
- 基于类似性的分析
7, 其他定向模式或统计分析
模式兴趣度的度量
比较困难度量
1,模式兴趣度的度量
- 易于被人理解
- 在某种程度上,对于新的或测试数据是有效的
- 具有潜在效用
- 新颖的
- 符合用户确信的某种假设
2, 模式兴趣度的客观和主观度量、
- 客观度量 :基于所发现模式的结构和关于他们的统计,比如:支持度(数据多少程度上对结论的支持),置信度等等
- 主观度量: 基于用户对数据的判断。比如:出乎意料的,新颖的、可行动的等等。
数据挖掘算法的优化
- 数据挖掘系统可以仅仅发现有趣的模式
- 方法
(1),首先生成所有模式然后过滤那些无趣的
(2),仅仅生成有趣的模式 - 挖掘查询优化
数据挖掘学科综合性

数据挖掘的分类

1,根据所挖掘的数据库分类
- 关系数据库,事务数据库 ,流式数据库,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,
2,根据挖掘的知识类型
- 特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析等等
- 多种方法的集成和多层机挖掘
3,根据挖掘所用技术
- 面向数据库的挖掘,数据仓库,OLAP,机器学习,统计学,可视化等等
4,根据挖掘所用的应用
- 金融,电信,银行,欺诈分析,DNA分析,股票市场,WEB挖掘。
网友评论