第一章
数据挖掘:在数据中搜索知识
分为几个步骤:
- 数据清理(消除噪声和删除不一致的数据)
- 数据集成(多种数据源可以组合在一起)
- 数据选择(从数据库中提取与分析任务相关的数据)
- 数据变换(通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式)
- 数据挖掘(基本步骤,使用智能方法提取数据模式)
- 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
- 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
数据源包括数据库、数据仓库、Web、其他信息存储库、或动态地流入系统的数据。
数据的基本形式:
- 数据库数据
- 数据仓库数据
- 事务数据
数据仓库:一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造
数据挖掘的相关技术:
- 统计学
- 机器学习
- 数据库系统与数据仓库
- 信息检索
数据挖掘的应用:
- 商务智能(提供商务运作的历史、现状和预测图)
- Web搜索引擎(本质是大型数据挖掘应用)
数据挖掘研究的主要问题:
- 挖掘方法
- 用户交互
- 有效性与可伸缩性
- 数据类型的多样性
- 数据挖掘与社会
补充两个概念:
- 数据特征化:目标类数据的一般特性或者特征的汇总
- 数据区分:将目标类数据对象的一般特性与一个或者多个对比类对象的一般特性进行比较
网友评论