导论
数据挖掘
数据库中知识发现 Knowledge Discovery in Database (KKD) 是将未加工的数据转换为有用信息的整个过程。而数据挖掘是其中不可缺少的一环,包括从数据预处理到数据挖掘结果的后处理。
数据科学 data science 是一个研究及应用工具和技术从数据中获取信息的跨学科领域,涉及多领域的工具和技术,如数据挖掘、统计学、人工智能、模式识别、机器学习、数据库技术等。
数据挖掘要解决的问题
- 可伸缩
- 高维性
- 异构数据和复杂数据
- 数据的所有权与分布
- 非传统分析
数据挖掘任务
通常分为两大类
- 预测任务
- 预测建模
包括分类(离散变量),回归(连续性变量)
- 描述任务
多为探查性,常后跟技术验证和结果解释。
- 关联分析
- 聚类分析
- 异常检测
识别异常点或离群点,异常检测算法需要尽量高检测率和低误报率。
网友评论