分类是给一个样本预测离散型类别标签的问题。
回归是给一个样本预测连续输出量的问题。
从根本上来说,分类是预测一个标签,回归是预测一个数量。
1、预测建模
预测建模就是使用历史数据建立一个模型,去给没有答案的新数据做预测。
预测建模可以被描述成一个近似求取输入量 (x) 到输出量 (y) 的映射函数的数学问题,这被称为函数逼近问题。
建模算法的任务,就是在给定的可用时间和资源的限制下,去寻找最佳映射函数。
一般而言,我们可以将函数逼近任务划分为分类任务和回归任务。
2、分类预测建模
分类预测建模是逼近一个从输入变量 (x) 到离散的输出变量 (y) 之间的映射函数。
离散的输出变量 (y) 经常被称作「标签」或「类别」。映射函数会对一个给定的观察样本预测一个类别标签。例如,一个文本邮件可以被归为两类:「垃圾邮件」和「非垃圾邮件」。
分类模型经常为输入样本预测得到与每一类别对应的像概率一样的连续值。这些概率可以被解释为样本属于每个类别的置信度(似然度)。然后通过分析比较置信度来将其转换成类别标签。
以一个简单的「手写数字识别」为例:左边画板图片就是输入样本,模型先分别预测该图片为数字0~9类的置信度。由于被预测为1的置信度最大(45.32%),最终将其归类于数字1,输出结果为1。
![](https://img.haomeiwen.com/i14479570/6772f9ce3ffdf204.png)
分类模型的评估指标包括 Accuracy、Precision、Recall、PRC、F-score、ROC 和 AUC 等。
我们以准确率Accuracy(被正确分类的样本占所有样本的比例)为例:如果一个分类模型做了10个预测,其中7个预测正确,3个预测错误。那么该分类预测模型的准确率为。
3、回归预测建模
回归预测模型是逼近一个从输入变量 (x) 到连续的输出变量 (y) 之间的映射函数。
回归的输入变量可以是连续的,也可以是离散的。有多个输入变量通常被称作多变量回归。
连续的输出变量 (y) 是一个实数,例如一个整数或浮点数。这些变量通常是数量、尺寸大小等。
例如,一座房子可能被预测到以美元出售,
可能在$100,000~$200,000范围内。
因为回归模型预测的是一个数量,所以回归模型的性能可用预测结果中的错误来评价。
回归模型的评估指标包括 MAE(平均绝对误差)、MSE(均方误差)、RMSE(均方根误差)、NRMSE(归一化均方根误差)、决定系数 等。
我们以 RMSE 为例:如果回归模型做出了两个预测结果,一个是1.5,对应的期望结果是1.0;另一个是3.3,对应的期望结果是3.0。那么该回归预测模型的均方根误差为
4、分类 vs 回归
相同点
分类算法可能预测到一个连续的值,但这些连续的值对应的是一个类别的概率。
回归算法可以预测离散值(输入),但是是以整型量的形式来预测离散值的。
有些算法即可用来做分类问题,也可用来做回归问题,例如:决策树。但有些算法具有针对性,例如「线性回归算法」用来做回归预测建模,而「logistics回归算法」用来做分类预测建模。
不同点
分类是预测一个离散标签的任务;回归是预测一个连续数量的任务。
分类模型和回归模型的评估指标是不一样的:
- 分类模型可以用准确率来评价,而回归问题不能。
- 回归问题可以用均方根误差来评价,而分类问题不能。
网友评论