机器学习：分类 vs 回归

作者: 星光下的胖子 | 来源:发表于2020-05-16 11:41 被阅读0次

机器学习：分类 vs 回归
机器学习基础：分类vs回归
机器学习基础算法（1）-KNN
神经网络：什么是深度学习
第一章回归，分类 & 聚类
机器学习入门（七）：朴素贝叶斯分类器——从贝叶斯定理到分类模型
2019-05-14 python人工智能 1. 手工实现一个简
朴素贝叶斯分类器
常见线性回归|理论与算法实现
逻辑回归

分类是给一个样本预测离散型类别标签的问题。
回归是给一个样本预测连续输出量的问题。

从根本上来说，分类是预测一个标签，回归是预测一个数量。

1、预测建模

预测建模就是使用历史数据建立一个模型，去给没有答案的新数据做预测。

预测建模可以被描述成一个近似求取输入量 (x) 到输出量 (y) 的映射函数的数学问题，这被称为函数逼近问题。

建模算法的任务，就是在给定的可用时间和资源的限制下，去寻找最佳映射函数。

一般而言，我们可以将函数逼近任务划分为分类任务和回归任务。

2、分类预测建模

分类预测建模是逼近一个从输入变量 (x) 到离散的输出变量 (y) 之间的映射函数。

离散的输出变量 (y) 经常被称作「标签」或「类别」。映射函数会对一个给定的观察样本预测一个类别标签。例如，一个文本邮件可以被归为两类：「垃圾邮件」和「非垃圾邮件」。

分类模型经常为输入样本预测得到与每一类别对应的像概率一样的连续值。这些概率可以被解释为样本属于每个类别的置信度(似然度)。然后通过分析比较置信度来将其转换成类别标签。
以一个简单的「手写数字识别」为例：左边画板图片就是输入样本，模型先分别预测该图片为数字0~9类的置信度。由于被预测为1的置信度最大(45.32%)，最终将其归类于数字1，输出结果为1。

手写数字识别

分类模型的评估指标包括 Accuracy、Precision、Recall、PRC、F-score、ROC 和 AUC 等。
我们以准确率Accuracy(被正确分类的样本占所有样本的比例)为例：如果一个分类模型做了10个预测，其中7个预测正确，3个预测错误。那么该分类预测模型的准确率为 $7/10=70\%$ 。

3、回归预测建模

回归预测模型是逼近一个从输入变量 (x) 到连续的输出变量 (y) 之间的映射函数。

回归的输入变量可以是连续的，也可以是离散的。有多个输入变量通常被称作多变量回归。

连续的输出变量 (y) 是一个实数，例如一个整数或浮点数。这些变量通常是数量、尺寸大小等。
例如，一座房子可能被预测到以 $y$ 美元出售， $y$ 可能在$100,000~$200,000范围内。

因为回归模型预测的是一个数量，所以回归模型的性能可用预测结果中的错误来评价。
回归模型的评估指标包括 MAE(平均绝对误差)、MSE(均方误差)、RMSE(均方根误差)、NRMSE(归一化均方根误差)、 $R^2$ 决定系数等。
我们以 RMSE 为例：如果回归模型做出了两个预测结果，一个是1.5，对应的期望结果是1.0；另一个是3.3，对应的期望结果是3.0。那么该回归预测模型的均方根误差为
$RMSE=\sqrt[2]{\frac{(1.5-1.0)^2+(3.3-3.0)^2}{2}}$