美文网首页程序员
逻辑回归为什么用交叉熵损失函数

逻辑回归为什么用交叉熵损失函数

作者: 顾子豪 | 来源:发表于2020-09-14 17:27 被阅读0次

    1 Logistic Regression(逻辑回归)

    • 逻辑回归是机器学习中的一个非常常见的模型, 逻辑回归模型其实仅在线性回归的基础上,套用了一个逻辑函数。

    • 逻辑回归可以看做是两步,第一步和线性回归模型的形式相同,即一个关于输入x的线性函数:

    \mathrm{z}=\mathrm{w}^{\mathrm{T}} \mathrm{x}+\mathrm{b}

    • 第二步通过一个逻辑函数,即sigmoid函数,将线性函数转换为非线性函数。
      \quad \sigma(\mathrm{z})=\frac{1}{1+\mathrm{e}^{-\mathrm{z}}}

    2损失函数

    • 为了训练逻辑回归模型的参数w和b需要一个代价函数,算法的代价函数是对m个样本的损失函数求和然后除以m:

    L(\hat{y}, y)=-y \log (\hat{y})-(1-y) \log (1-\hat{y})
    \mathrm{J}(\mathrm{w}, \mathrm{b})=\frac{1}{\mathrm{m}}\sum_{\mathrm{i}=1}^{\mathrm{m}}\mathrm{L}\left(\hat{\mathrm{y}}^{(\mathrm{i})}, \mathrm{y}^{(\mathrm{i})}\right)=\frac{1}{\mathrm{m}} \sum_{\mathrm{i}=1}^{\mathrm{m}}\left(\mathrm{ylog}\left(\hat{\mathrm{y}}^{(\mathrm{i})}\right)-\left(1-\mathrm{y}^{(\mathrm{i})}\right) \log\left(1-\hat{\mathrm{y}}^{(\mathrm{i})}\right)\right)

    3 为什么逻辑回归的损失函数是这样的形式

    • 我们假定输入样本x,用y表示训练样本x条件下预测y=1的概率,对应的,用1-y表示训练样本x条件下预测y=0的概率,也就是说:
      \begin{array}{l} \text { if } y=1: \quad p(y \mid x)=\hat{y} \\ \text { if } y=0: \quad p(y \mid x)=1-\hat{y} \end{array}

    • 我们可以把这两个公式合并成一个公式:

    p(y \mid x)=\hat{y}^{y}(1-\hat{y})^{(1-y)}

    • 可以发现,在y=1时公式右边等于y,在y=1时公式右边等于1-y。由于log函数是严格递增函数,所以最大化log等价于最大化原函数,上式因此可以化简为式子,也就是损失函数的负数。

    \log p(y \mid x)=\operatorname{ylog}(\hat{y})+(1-y) \log (1-\hat{y})=-L(\hat{y}, y)

    • 最大化似然函数也就是最小化损失函数。

    • 对于m个样本的整个训练集,服从独立同分布的样本的联合概率就是每个样本的概率的乘积:

    \log \prod_{\mathrm{i}=1}^{\mathrm{m}} \mathrm{p}\left(\mathrm{y}^{(\mathrm{i})} \mid \mathrm{x}^{(\mathrm{i})}\right)=\sum_{\mathrm{i}=1}^{\mathrm{m}} \log \mathrm{p}\left(\mathrm{y}^{(\mathrm{i})} \mid \mathrm{x}^{(\mathrm{i})}\right)=-\sum_{\mathrm{i}=1}^{\mathrm{m}} \mathrm{L}\left(\hat{\mathrm{y}}^{(\mathrm{i})}, \mathrm{y}^{(\mathrm{i})}\right)

    • 同样的,最大化似然函数也就是最小化代价函数,因此可以去掉负号,并除以一个常数m对代价函数进行适当的缩放,得到:

    J(w, b)=\frac{1}{m} \sum_{i=1}^{m} L\left(\hat{y}^{(i)}, y^{(i)}\right)
    参考链接(侵删):
    https://blog.csdn.net/weixin_41537599/article/details/80585201

    相关文章

      网友评论

        本文标题:逻辑回归为什么用交叉熵损失函数

        本文链接:https://www.haomeiwen.com/subject/ivizektx.html