冒泡~小李又上线啦~今天学习了几个概念,故做如下整理:
首先,要区别这几个概念,我们要先引入损失函数的概念。
损失函数
定义:损失函数就一个具体的样本而言,模型预测的值与真实值之间的差距。
对于一个样本(xi,yi)其中yi为真实值,而f(xi)为我们的预测值。使用损失函数L(f(xi),yi)来表示真实值和预测值之间的差距。两者差距越小越好,最理想的情况是预测值刚好等于真实值。
损失函数越小,说明模型对于该样本预测越准确。
几个常见的损失函数:
所以当已知损失函数L(Y∣f(X))时,我们能想到的第一件事,就是将损失函数基于整个数据集取平均,再想办法减小。---也就是求期望的平均{前提:我们设定输入随机变量X,输出随机变量服从联合概率分布P(X,Y)}
由于L(Y∣f(X)) 是关于随机变量X,Y的函数,通常有两种方法求均值:
a.将X,Y当作离散随机变量求期望
b将X,Y当作连续随机变量求期望
补充一下 :离散随机变量和连续随机变量的知识回顾
离散随机变量:只可能出现可数型(可数型:也就是可以数得清数值)的实现值,比如自然数集,{0,1}等等。
常见的有二项随机变量,泊松随机变量等。
也可以这样理解:如果随机变量X只可能取有限个或至多可列个值,则称X为离散型随机变量。
分布函数对于离散型随机变量X,X只有当取这些离散的值时概率才不为0,所以只在这些点处F(x)有跳变,跳变的高度也就是X取这个值的概率p(X=xi),对于除了这些可能取值之外的值,从图中可以看到跳变的高度就是0,也就是表明了取这些值的概率就是0。
分布函数图像连续型随机变量:连续型随机变量的实现值是属于不可数集合的,比如(0,1],实数集。
常见的有正态分布,指数分布,均匀分布等。
概率密度函数连续型随机变量,并不能确定X取一个具体值的概率是多少,因为有无穷多个值,但是它的分布函数仍然可以求,显然分布函数是一个单调非减的,可以知道X落在一个区间(x1,x2)的概率,就是这个函数在这个区间内的增量F(x2)-F(x1)。
函数图像最后注意:变量不是只分为离散随机变量和连续随机变量。
图像来源:【ML学习笔记】7:查漏补缺1(期望风险,经验风险,过学习,结构风险) - LZH的笔记 - CSDN博客
接下来重点来啦~
期望风险
前提:将X,Y当作连续随机变量求期望
这是对所有样本(包含未知样本和已知的训练样本)的预测能力,是全局概念。(式子如下)
但是我们无法求出X,Y的联合分布P(X,Y),故不能求出期望风险。
经验风险
前提:将X,Y当作随机随机变量求期望
对所有训练样本都求一次损失函数,再累加求平均。模型f(x)对训练样本中所有样本的预测能力。(式子如下)
经验风险越小则说明对于训练集数据的拟合程度越好。
理想的模型(决策)函数应该是让所有的样本的损失函数最小(即期望风险最小化)。但是期望风险函数往往不可得,所以用局部最优代替全局最优。这就是经验风险最小化的理论基础。
期望风险与经验风险的区别:
期望风险是全局的,基于所有样本点损失函数最小化。期望风险是全局最优,是理想化的不可求的。
经验风险是局部的,基于训练集所有样本点损失函数最小化。经验风险是局部最优,是现实的可求的。
缺点:
只考虑经验风险的话,会出现过度拟合现象,即模型f(x)对训练集中所有的样本点都有最好的预测能力,但是对于非训练集中的样本数据,模型的预测能力非常不好。怎么办?这就需要结构风险。
结构风险:
对经验风险和期望风险的折中,在经验风险函数后面加一个正则化项(惩罚项),是一个大于0的系数lamada。J(f)表示的是模型的复杂度。
经验风险越小,模型决策函数越复杂,其包含的参数越多,当经验风险函数小到一定程度就出现了过拟合现象。也可以理解为模型决策函数的复杂程度是过拟合的必要条件,那么我们要想防止过拟合现象的方式,就要破坏这个必要条件,即降低决策函数的复杂度。也即,让惩罚项J(f)最小化,现在出现两个需要最小化的函数了。我们需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化,一个简单的办法把两个式子融合成一个式子得到结构风险函数然后对这个结构风险函数进行最小化。
结构风险是两者的折中处理,是经验风险和正则化的加和。
参考:机器学习优化问题-经验风险、期望风险、结构风险 - Joyce_song94 - 博客园https://blog.csdn.net/ccj201300130003/article/details/78168997
finally~
今天学习效率有点低了~希望接下来可以慢慢步入正轨鸭!
网友评论