美文网首页
Sigmod Loss 相关总结

Sigmod Loss 相关总结

作者: Allard_c205 | 来源:发表于2021-09-24 10:17 被阅读0次

    一、sigmoid 函数的应用背景:

    f  = w.x +b 是起初用于分类的线性模型(是个通过属性的线性组合来预测的函数[每个样本都包含多个属性],w权重表达了样本中各个属性在预测中的重要性,b偏置表达了从物理世界到数据表达中存在的不确定性,比如某些噪声无法通过数据表征出来),模型的最终目的是为了找到这样的一条直线(平面)将空间中的样本点进行分类。但是获得的直线(平面)上的取值是连续的,并不能对离散的值进行拟合。为解决这个问题就引入了条件概率的使用:p(y=1|x):当x取某值时,y=1的概率,概率取值范围是[0,1],概率值是个连续值。 所以可以用线性模型来拟合概率值,但是,概率值的范围是[0,1],而线性模型的结果值是负无穷到正无穷。所以,就需要有函数将模型的输出值映射在[0,1]范围内。首先,想到的是利用阶跃函数(分段函数),

    但该类函数不满足单调可微性质,也就是无法对其求梯度。

    所以,就有了sigmoid函数的使用。 其数学表达式是:\sigma (z) = \frac{1}{1+e^-z } ,【这里就表明了sigmoid函数是直接以模型的输出作为输入变量的】。该函数的曲线图为:

    横轴为模型的输出值,纵轴为对应的概率值

    所以,模型的表达式为:p(y=1|x) = \sigma (z) = \frac{1}{1+e^-z } , z= w.x+b

    存在关系式:\ln \frac{p(y=1|x)}{p(y=0|x)} = z = wx+b,该比值称为对数几率(log odds,logit)该几率反映了样本为正例的相对可能性。从该关系式可以看出,逻辑回归的本质是用线性回归的预测结果去逼近真实标记的对数几率。

    所以,起初是假设模型为h(θ) = w.x+b,后来因为将其表示为概率形式,所以模型变为:h(θ) = p,概率公式p再根据任务类型进行变换。(模型也就由线性回归转为逻辑回归,线性代表了连续,逻辑也就代表了离散) 

    好处:不仅预测出了类别 ,也表示出来属于该类别的概率,有利于利用概率来辅助决策。


    二、sigmoid 损失函数的使用:

    sigmoid 属于逻辑损失函数的一种,适用于二分类任务中,需要满足假设之一:数据满足伯努利分布。

    logical 函数 也叫作 sigmoid 函数

    h_{θ}(x) 表示将样本预测为正类的概率,1-h_{θ} (x)将样本预测为负类的概率,整个模型可以表示为:h_{θ}(x,θ) =  p ,其中, p = \frac{1}{1+e^-\theta ^T x  } ,(θ是权重,x是输入变量,该指数代表模型的输出),最后得到逻辑回归的最终表达式。

    逻辑回归的损失函数,是其极大似然函数:

    由一可知:p(y=1|x) = \sigma (z)
,则p(y=0|x) = 1-\sigma (z),所以似然函数为:\prod\nolimits_{i=1}^n  [\sigma (z)]^(y_{i})[1-\sigma (z)]^(1-y_{i} ),使用负对数似然函数作为模型的损失函数(为了好计算但式子性质不变):Loss =- \sum_{i=1}^n [y_{i}\lg \sigma (x) +(1- y_{i})\lg(1- \sigma (x))] = \sum_{i=1}^n[y_{i} (w.x)-\lg x(1+e^(w.x) ]

    在模型训练时,需要对该loss函数求梯度(就是对权重W求导),就是按照函数求偏导的方法对该loss进行求导,最终结果为:

    让上式等于零,获得权重w的更新方向,从而让loss值降低,目的就是最终获得loss的最小值,此时对应的w参数就是网络所需的最优参数。(当然,实际网络中并非是单一的参数,而是很复杂的参数结构)

    接着就使用梯度下降法,对网路参数进行更新,求得最优参数解。

    相关文章

      网友评论

          本文标题:Sigmod Loss 相关总结

          本文链接:https://www.haomeiwen.com/subject/idlogltx.html