什么是数据挖掘

数据挖掘（Data mining），它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

通常，数据挖掘任务分为两大类

预测任务—— 产生预测性模型
根据一部分属性的值，预测特定属性的值，用来做预测的属性称作自变量/说明变量；被预测的属性称作因变量/目标变量
两种常用方法：分类、回归
描述任务 —— 产生解释性模型
导出概括数据中潜在联系的模式，包括相关、趋势、聚类、轨迹和异常等模式，描述性数据挖掘任务具有探查性，通常需要验证和理解结果
三种常用方法：聚类、关联分析、异常检测

分类
定义：给定一组含有类标号(离散型)的记录(训练集)，寻找推导类标号的一个模型，使预测结果尽量准确
 每个记录包含一组属性，其中一个属性是类标属性，类标属性的取值称作类标号
 寻找的模型可以看作是类标号的一个函数，该函数的自变量是非类标属性，因变量是类标属性
 模型不仅要拟合训练集，还要能正确预测未知记录的类标
 使用测试集评估模型，以针对测试集的准确率作为模型的准确率
常见模型：决策树、规则集、贝叶斯分类器、人工神经网络、支持向量机等
回归
定义：给定一组含有类标号(连续型)的记录(训练集)，寻找推导类标号的一个模型，使预测结果尽量准确。分类任务和回归任务可以互相转化：
 分类 → 回归：比如采用logistic回归处理离散型类标
 回归 ← 分类：比如采用离散化过程，将连续型类标号转成离散型类标号
常见模型：回归方程、结构方程模型等
聚类
定义：给定一组数据点和一个数据点间相似程度的度量准则，寻找一个簇的集合，使同簇的对象相似，不同簇的对象不相似
 每个数据点包含一组属性，没有类标属性
 簇也叫作分组，是一组数据点
 相似程度的度量准则可以是欧氏距离等
 通过使簇内距离最小化，簇间距离最大化实现聚类
关联分析
定义：给定一组由项构成的事务记录，发现项之间的依赖规则，每个规则表示一些项的出现预示着其他项的出现
 项之间的依赖规则称作关联规则
异常分析
定义：找出与其他大部分对象特征显著不同的对象
 与分类的主要区别：没有类标属性，离群点极少
 与聚类的主要区别：离群点不能形成簇
 与关联分析的主要区别：找对象不是找模式

关联分析 vs 聚类 vs 分类
输入
关联分析：事务数据库，不同记录可以具有不同的字段
分类：带类标的二维数据库（即表单）
聚类：不带类标的二维数据库（即表单），每个单元格是数值
输出
关联分析：对应输入数据局部的模式（即关联规则）
分类：对应输入数据全体的预测模型（即决策树、规则集、贝叶斯分类器、人工神经网络或支持向量机）
聚类：对应输入数据全体的描述模型（即分组结果/簇集）