损失函数和梯度下降算法简介

作者: 科学Jia | 来源:发表于2017-08-20 20:14 被阅读489次

损失函数和梯度下降算法简介
Stochastic Gradient Descent vs B
统计学习方法-感知机-python
总结那些常用的优化方法
深入机器学习的梯度优化
线性回归及梯度下降（代码实现）
机器学习笔记 - 逻辑回归
线性回归
1.2梯度下降算法
常见损失函数总结

前面讲到了KNN算法，但是KNN的一些缺点，它没有被用到图像的识别。

线性分类函数f(x,W)应该是卷积神经网络的一个基础概念，它引入了权重w，以及偏移量b。如下图中，喵咪的图片中只取4个像素点作为输入数据x，W矩阵行数3代表可能的三种分类的各自权重值，最后通过线性公式f(x,W)可以计算出3种分类的得分数：Cat score, Dog score, Ship score.

损失函数和梯度下降算法简介

通过这种方式，我们可以算出每个图片对应潜在分类的得分数(scores), 哪种分类的分数最高，那么就意味着该图片属于该分类的可能性更大，如下图：

损失函数和梯度下降算法简介

但是，我们很容易看到该计算的误差，例如，喵咪图片的各分类得分，2.9分属于cat分类，但很显然它不是分数最高的，dog最高。这意味着这张图片会被判为是一只狗，而不是喵。

那么这里我们就需要(To Do):

1、额外引入损失函数(Loss Function)来帮助我们知道，这个误差有多大？

2、我们如何优化参数来减少损失函数的值，提高我们的准确率?

损失函数目前教程里提到了两类：SVM和Softmax。

先讲讲第一类：

SVM

如图所示，被蓝色框出来的公式Li就是SVM的公式，还是以猫咪图片为例，Syi是我们目标的分类分数3.2，首先用car分类的分数5.1代入公式，得到最大值2.9，随后，把frog分类的分数-1.7带入公式，得到最大值0，那么求和得到的损失值为2.9，说明有较大误差。

损失函数和梯度下降算法简介

那么看看以Car图片为例的损失值又为多少呢？

同样的套SVM公式计算，这时Syj为4.9，首先，我们把cat的分数值1.3代入公式，算出最大值为0，接着把frog的分数值2.0代入公式，算出最大值依然为0，那么由此可见，Car图片的损失函数值为0，意味着该判断误差为0。

损失函数和梯度下降算法简介

通过上面的分析，我们可以知道，当损失函数值最小可以是0，表示此时没有误差。

需要注意的是：损失函数值为0，意味着我们的linear classifier的模型越精确，例如下图中，我们可以很好的模拟蓝色数据点的曲线图，来达到更好的精确度，但实际上，这样做是没有必要的，因为如果后面进来的需要测试的数据如绿点所示，那么蓝色数据点的训练模型就不能适用了，绿色点更像需要一条直线来模拟。这是深度学习中常见的问题，那么如何解决呢？通常我们的做法是添加一个简单的调整函数