美文网首页
机器学习中期望风险、经验风险、结构风险的初步学习

机器学习中期望风险、经验风险、结构风险的初步学习

作者: LiBiscuit | 来源:发表于2018-10-26 17:35 被阅读102次

冒泡~小李又上线啦~今天学习了几个概念,故做如下整理:


首先,要区别这几个概念,我们要先引入损失函数的概念。

损失函数

定义:损失函数就一个具体的样本而言,模型预测的值与真实值之间的差距。

对于一个样本(xi,yi)其中yi为真实值,而f(xi)为我们的预测值。使用损失函数L(f(xi),yi)来表示真实值和预测值之间的差距。两者差距越小越好,最理想的情况是预测值刚好等于真实值。 

损失函数越小,说明模型对于该样本预测越准确。

几个常见的损失函数:

所以当已知损失函数L(Y∣f(X))时,我们能想到的第一件事,就是将损失函数基于整个数据集取平均,再想办法减小。---也就是求期望的平均{前提:我们设定输入随机变量X,输出随机变量服从联合概率分布P(X,Y)}

由于L(Y∣f(X)) 是关于随机变量X,Y的函数,通常有两种方法求均值:

                   a.将X,Y当作离散随机变量求期望

                    b将X,Y当作连续随机变量求期望

补充一下 :离散随机变量和连续随机变量的知识回顾

离散随机变量:只可能出现可数型(可数型:也就是可以数得清数值)的实现值,比如自然数集,{0,1}等等。

常见的有二项随机变量,泊松随机变量等。

也可以这样理解:如果随机变量X只可能取有限个或至多可列个值,则称X为离散型随机变量。

分布函数

对于离散型随机变量X,X只有当取这些离散的值时概率才不为0,所以只在这些点处F(x)有跳变,跳变的高度也就是X取这个值的概率p(X=xi),对于除了这些可能取值之外的值,从图中可以看到跳变的高度就是0,也就是表明了取这些值的概率就是0。

分布函数图像

连续型随机变量:连续型随机变量的实现值是属于不可数集合的,比如(0,1],实数集。

常见的有正态分布,指数分布,均匀分布等。

概率密度函数

连续型随机变量,并不能确定X取一个具体值的概率是多少,因为有无穷多个值,但是它的分布函数仍然可以求,显然分布函数是一个单调非减的,可以知道X落在一个区间(x1,x2)的概率,就是这个函数在这个区间内的增量F(x2)-F(x1)。

函数图像

最后注意:变量不是只分为离散随机变量和连续随机变量。

图像来源:【ML学习笔记】7:查漏补缺1(期望风险,经验风险,过学习,结构风险) - LZH的笔记 - CSDN博客


                                   接下来重点来啦~

期望风险

前提:将X,Y当作连续随机变量求期望

这是对所有样本(包含未知样本和已知的训练样本)的预测能力,是全局概念。(式子如下)

但是我们无法求出X,Y的联合分布P(X,Y),故不能求出期望风险。

经验风险

前提:将X,Y当作随机随机变量求期望

所有训练样本都求一次损失函数,再累加求平均。模型f(x)对训练样本中所有样本的预测能力。(式子如下)

经验风险越小则说明对于训练集数据的拟合程度越好。

理想的模型(决策)函数应该是让所有的样本的损失函数最小(即期望风险最小化)。但是期望风险函数往往不可得,所以用局部最优代替全局最优。这就是经验风险最小化的理论基础。

期望风险与经验风险的区别:

期望风险是全局的,基于所有样本点损失函数最小化。期望风险是全局最优,是理想化的不可求的。

经验风险是局部的,基于训练集所有样本点损失函数最小化。经验风险是局部最优,是现实的可求的。

缺点:

只考虑经验风险的话,会出现过度拟合现象,即模型f(x)对训练集中所有的样本点都有最好的预测能力,但是对于非训练集中的样本数据,模型的预测能力非常不好。怎么办?这就需要结构风险

结构风险:

对经验风险和期望风险的折中,在经验风险函数后面加一个正则化项(惩罚项),是一个大于0的系数lamada。J(f)表示的是模型的复杂度。

经验风险越小,模型决策函数越复杂,其包含的参数越多,当经验风险函数小到一定程度就出现了过拟合现象。也可以理解为模型决策函数的复杂程度是过拟合的必要条件,那么我们要想防止过拟合现象的方式,就要破坏这个必要条件,即降低决策函数的复杂度。也即,让惩罚项J(f)最小化,现在出现两个需要最小化的函数了。我们需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化,一个简单的办法把两个式子融合成一个式子得到结构风险函数然后对这个结构风险函数进行最小化

结构风险是两者的折中处理,是经验风险和正则化的加和。



参考:机器学习优化问题-经验风险、期望风险、结构风险 - Joyce_song94 - 博客园https://blog.csdn.net/ccj201300130003/article/details/78168997


finally~

今天学习效率有点低了~希望接下来可以慢慢步入正轨鸭!

相关文章

  • 机器学习中期望风险、经验风险、结构风险的初步学习

    冒泡~小李又上线啦~今天学习了几个概念,故做如下整理: 首先,要区别这几个概念,我们要先引入损失函数的概念。 损失...

  • 机器学习优化问题-经验风险、期望风险、结构风险

    参考链接见:机器学习优化问题-经验风险、期望风险、结构风险Learning Theory什么是经验风险?什么是结构风险?

  • L1,L2正则化本质

    (1)什么是正则化 1、从结构风险化角度,解释什么是正则化 经验风险其实就是样本本身带来的误差。结构风险就是学习器...

  • SVM概念

    SVM,基于VC维理论和结构化风险最小化原理。 何为VC维,何为结构化风险? 首先,应该知道任何机器学习模型是对真...

  • 经验风险、期望风险、结构风险

    序 本次记录内容包括机器学习中的三种类型的风险函数 风险函数与损失函数的关系 统计学习模型旨在假设空间中寻找最佳的...

  • 支持向量机 Support Vector Machine

    支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机...

  • 经验风险,结构风险,损失函数

    损失函数:度量模型一次预测的好坏。 注:函数具体形式依据规则而定,只要可以描述出预测值与真实值之间的偏差即可。 风...

  • 2020-03-03 为什么叫“风险”?

    为什么叫“风险”? 说保险,先说风险!学习保险知识,先学习风险知识,因为,保险与风险密不可分,风险是保险的基础,保...

  • 5. 深度学习-正则化

    我们知道建立的模型,期望结构风险最小化,结构风险包括经验风险和置信风险,也就是我们的目标函数有两项组成,第一项为损...

  • 从结构化风险最小化角度理解SVM

    支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上 经验风险 = 分类器在给定样本上的误差...

网友评论

      本文标题:机器学习中期望风险、经验风险、结构风险的初步学习

      本文链接:https://www.haomeiwen.com/subject/dtkltqtx.html