监督学习

作者: 琎神Fire | 来源:发表于2017-08-31 09:06 被阅读0次

【输入--->模型--->输出】

监督学习的目的在于找到最好的这样的模型，由假设空间中N多个模型中产生。

分为学习过程和预测过程：

学习过程是系统通过给定的训练数据集得到一个模型，一边向此模型中输入数据，用输出数据与训练数据集中的已知数据相互比较，一边不断优化模型，使二者的差足够小，最后用条件概率密度函数或决策函数表示模型。

预测过程是向已得到的模型输入数据，然后得到输出数据。

统计学三要素：【方法=模型+策略+算法】

模型在监督学习中就是要学习的条件概率密度函数或者决策函数，其假设空间就是所有可能的函数的集合，可以由一个参数向量决定的函数组表示。有条件概率密度函数和决策函数两种表示方法。

策略，就是考虑用什么准则来学习或选择最优模型

——损失函数，度量模型一次预测的好坏。是非负实值函数，值越小，模型越好。

——风险函数，度量模型平均预测的好坏。损失函数的期望就是风险函数或期望损失，是模型关于联合概率分布的平均损失，但是风险函数中的P（X,Y）联合分布是未知的，所以又提出经验风险。

——经验风险是模型关于训练数据集的平均损失，而期望风险是模型关于联合概率分布的平均损失，所以当训练数据集中的样本为无穷时，经验风险趋于期望风险。问题则转向经验风险最小化。

——经验风险最小化，当样本容量足够大时，效果显著。但是样本有限时就会出现偏差，出现“过拟合”现象。

——结构风险最小化，防止“过拟合”现象，由经验风险和模型复杂度构成，二者同时小时，就能有较好的预测。

总：监督学习的问题就变成了经验风险和结构风险最优化的问题，经验风险函数和结构风险函数就是目标函数。

注：梯度下降（gd）是最小化风险函数、损失函数的一种常用方法，随机梯度下降和批量梯度下降是两种迭代求解思路。

算法，确定了策略便可寻找合适的算法来解决问题了。

本文标题：监督学习

本文链接：https://www.haomeiwen.com/subject/nanxlxtx.html