上一个lecture中讲解了线性分类里的评分函数,以及对线性分类的理解。这次来讲解损失函数以及如何求。
本课重点:
-
线性分类II——损失函数
-
优化
1 线性分类II——损失函数
1.1 损失函数的概念
回到之前小猫分类的结果,这个例子中权重值非常差,因为猫分类的得分非常低(-96.8),而狗(437.9)和船(61.95)比较高。于是定义损失函数(Loss Function)(有时也叫代价函数 Cost Function 或目标函数 Objective)来衡量我们对结果的不满意程度。当评分函数输出结果与真实结果之间差异越大,损失函数输出越大,反之越小。
def L_i(x, y, W):
"""
非向量化版本。
计算单个例子(x,y)的多类svm损失
- x 是表示图像的列向量(例如,CIFAR-10中的3073 x 1),附加偏置维度
- y 是一个给出正确类索引的整数(例如,CIFAR-10中的0到9之间)
- W 是权重矩阵(例如,CIFAR-10中的10 x 3073) """
delta = 1.0 # 间隔 delta
scores = W.dot(x) # 得分数组,10 x 1
correct_class_score = scores[y]
D = W.shape[0] # 分类的总数,即为10
loss_i = 0.0
for j in range(D): # 迭代所有错误分类
if j == y:
# 跳过正确分类的
continue
# 第 i 个样本累加损失
loss_i += max(0, scores[j] - correct_class_score + delta)
return loss_i
def L_i_vectorized(x, y, W):
'''
更快的半向量化实现。
half-vectorized指的是这样一个事实:对于单个样本,实现不包含for循环,
但是在样本外仍然有一个循环(在此函数之外)
'''
delta = 1.0
scores = W.dot(x)
# 用一个向量操作计算和所有类别的间隔
margins = np.maximum(0, scores - scores[y] + delta)
# y处的值应该为0
margins[y] = 0
loss_i = np.sum(margins)
return loss_i
- 这里的评分函数,所以损失函数可以写为:
,其中 是的第j行,然后被拉成一个行列向量,与列向量做点积。
- 函数,常被称为折叶损失(hinge loss)。比如平方折叶损失SVM(即L2-SVM),它使用的是,将更强烈(平方地而不是线性地)地惩罚过界的边界值。不使用平方是更标准的版本,但是在某些数据集中,平方折叶损失会工作得更好。可以通过交叉验证来决定到底使用哪个。
- 总之:
我们对于预测训练集数据分类标签的情况总有一些不满意的,而损失函数就能将这些不满意的程度量化。
-
正则化损失(regularization loss)
假设有一个数据集和一个权重集W能够正确地分类每个数据,即所有都为0,那么W是否唯一?其实只要是任意>1,都可以满足为0,因为把差值放大倍后,仍然会大于。所以,我们希望对某些W添加一些偏好,让我们的W更趋向于希望中的形式,可以通过向损失函数增加一个正则化惩罚(regularization penalty)来实现,另外一个目的也是为了让模型更加泛化。
这样就可以得到完整的多类SVM损失函数,它由两个部分组成:数据损失(data loss),即所有样例的平均损失,以及正则化损失(regularization loss)。完整公式如下:
常用的正则化损失:
最常用的R(W)是L2范式,W每个元素平方后加起来作为惩罚项,可以制约大的权重,更希望W的元素分布比较均匀:
除此之外还有L1范式,作为惩罚项更希望一个比较简单的模型,即W中有很多的0:
L1和L2也可以组合起来:
对正则化损失的理解:
引入L2范数正则化损失最好的性质就是对大数值权重进行惩罚,可以提升其泛化能力,因为这就意味着没有哪个维度能够独自对于整体分值有过大的影响。举个例子,假设输入向量 ,两个权重向量,。那么。两个权重向量都得到同样的内积,但是w1的L2惩罚是1.0,而w2的L2惩罚是0.25。因此,根据L2惩罚来看,w2更好,因为它的正则化损失更小。从直观上来看,这是因为w2的权重值更小且更分散,这就会鼓励分类器最终将所有维度上的特征都用起来,而不是强烈依赖其中少数几个维度。这一效果将会提升分类器的泛化能力,并避免过拟合。需要注意的是,和权重不同,偏差没有这样的效果,因为它们并不控制输入维度上的影响强度。因此通常只对权重W正则化,而不正则化偏差b。最后,因为正则化惩罚的存在,不可能在所有的例子中得到0的损失值,这是因为只有当W=0的特殊情况下,才能得到损失值为0。
但是从L1惩罚来看,w1可能会更好一些,当然这里L1惩罚相同,但是一般来说,L1惩罚更希望W比较稀疏,最好是有很多为0的元素,这一特性可以用来在不改变模型的基础上防止过拟合。比如下面的例子中:
图4 L1惩罚用来防止过拟合 假设我们的训练数据得到的模型是蓝色的曲线,可以看出应该是一个多项式函数,比如 图5 softmax损失图片上的内容乍一看有点吓人,下面逐个解释:
- 依然是存放所有分类分值的一维数组,,对应着第 j 个分类的得分,对数据的真实标签得分还是。现在这个分数被softmax分类器称作非归一化log概率;
- 函数 是 softmax函数,其输入值是一个向量,向量中元素为任意实数的评分值,函数对其进行压缩,输出一个向量,其中每个元素值在0到1之间,且所有元素之和为1。现在可以把这个压缩后的向量看作一个概率分布,分类标签是 k 的概率:。这个概率被称作归一化概率,得分的指数形式被称作非归一化概率。
- 由上所述,真实分类标签的概率:,如果这个概率为1就最好不过了。所以我们希望这个概率的对数似然最大化,也就是相当于负对数似然最小。由于概率P在[0, 1]之间,所以 -log(P) 在 0 到正无穷之间,所以我们可以用这个负对数似然作为对于的损失函数:
- 整个数据集的损失:
- SVM中使用的是折叶损失(hinge loss)有时候又被称为最大边界损失(max-margin loss),Softmax分类器中使用的为交叉熵损失(cross-entropy loss),因为使用的是softmax函数,求一个归一化的概率。
根据上面的分析,可以计算出小猫的softmax损失为0.89。损失为0的时候最好,无穷大的时候最差。
图6 小猫的softmax损失计算 注意:- softmax损失这种说法只是为了描述,没有实际意义。softmax损失,最大无穷,最小是0;
- 给W一个比较小的初值,s中所有值都很小接近于0时,此时的损失L应该等于分类类别数的对数:。可根据这个判断代码是否有问题;
- 实际代码编写中,由于指数形式的存在,如果得分很高,会得到一个非常大的数。除以大数值可能导致数值计算的不稳定,所以学会使用归一化技巧非常重要。如果在分式的分子和分母都乘以一个常数C,并把它变换到求和之中,就能得到一个从数学上等价的公式:
通常将C设为。该技巧简单地说,就是应该将向量中的数值进行平移,使得最大值为0。代码如下:
s = np.array([123, 456, 789]) # 例子中有3个分类,每个评分的数值都很大
p = np.exp(s) / np.sum(np.exp(s)) # 不好:数值问题,可能导致数值爆炸
# 那么将f中的值平移到最大值为0:
s -= np.max(s) # s变成 [-666, -333, 0]
p = np.exp(s) / np.sum(np.exp(s)) # 现在可以了,将给出正确结果
1.2.3 Softmax和SVM比较
下图有助于区分这 Softmax和SVM这两种分类器: 图7 SoftMax和SVM比较-
计算上有不同:
针对一个数据点,SVM和Softmax分类器的不同处理方式的例子。两个分类器都计算了同样的分值向量s(本节中是通过矩阵乘来实现)。不同之处在于对s中分值的解释:SVM分类器将它们看做是分类评分,它的损失函数鼓励正确的分类(本例中是蓝色的类别2)的分值比其他分类的分值高出至少一个边界值。Softmax分类器将这些数值看做是每个分类没有归一化的对数概率,鼓励正确分类的归一化的对数概率变高,其余的变低。SVM的最终的损失值是1.58,Softmax的最终的损失值是0.452,但要注意这两个数值没有可比性。只在给定同样数据,在同样的分类器的损失值计算中,它们才有意义。 -
损失的绝对数值都无法解释:
SVM的计算是无标定的,而且难以针对所有分类的评分值给出直观解释。Softmax分类器则不同,它允许我们计算出对于所有分类标签的"可能性"。为什么我们要在”可能性“上面打引号呢?这是因为可能性分布的集中或离散程度是由正则化参数λ直接决定的,λ是你能直接控制的一个输入参数。随着正则化参数λ不断增强,权重数值会越来越小,最后输出的概率会接近于均匀分布。这就是说,softmax分类器算出来的概率最好是看成一种对于分类正确性的自信。和SVM一样,数字间相互比较得出的大小顺序是可以解释的,但其绝对值则难以直观解释。 -
在实际使用中,SVM和Softmax经常是相似的:两种分类器的表现差别很小,不同的人对于哪个分类器更好有不同的看法。相对于Softmax分类器,SVM更加“局部目标化(local objective)”,只要看到正确分类相较于不正确分类,已经得到了比边界值还要高的分数,它就会认为损失值是0,对于数字个体的细节是不关心的。softmax分类器对于分数是永远不会满意的:正确分类总能得到更高的可能性,错误分类总能得到更低的可能性,损失值总是能够更小。
2 优化
现在,我们已经有:
- 评分函数:
- 损失函数:
SVM 数据损失:
Softmax 数据损失:
全损失: -
以及它们之间的关系:
图8 数据集、参数W、评分函数以及损失函数间的关系
如何寻找最优的呢?
2.1 损失函数可视化
损失函数一般都是定义在高维度的空间中(比如,在CIFAR-10中一个线性分类器的权重矩阵大小是[10x3073],就有30730个参数),这样要将其可视化就很困难。解决办法是在1维或2维方向上对高维空间进行切片,就能得到一些直观感受。例如,随机生成一个权重矩阵,该矩阵就与高维空间中的一个点对应。然后沿着某个维度方向前进的同时记录损失函数值的变化。换句话说,就是生成一个随机的方向并且沿着此方向计算损失值,计算方法是根据不同的值来计算。这个过程将生成一个图表,其x轴是值,y轴是损失函数值。同样的方法还可以用在两个维度上,通过改变a,b来计算损失值,从而给出二维的图像。在图像中,可以分别用x和y轴表示a, b,而损失函数的值可以用颜色变化表示。下图是一个无正则化的多类SVM的损失函数的图示。左边和中间只有一个样本数据,右边是CIFAR-10中的100个数据,蓝色部分是低损失值区域,红色部分是高损失值区域:
上图中注意损失函数的分段线性结构。多个样本的损失值是总体的平均值,所以右边的碗状结构是很多的分段线性结构的平均。可以通过数学公式来解释损失函数的分段线性结构。对于一个单独的数据,有损失函数的计算公式如下:
每个样本的数据损失值是以W为参数的线性函数的总和。W的每一行(),有时候它前面是一个正号(比如当它对应非真实标签分类的时候),有时候它前面是一个负号(比如当它是正确分类的时候)。比如,假设有一个简单的数据集,其中包含有3个只有1个维度的点,数据集数据点有3个类别。那么完整的无正则化SVM的损失值计算如下:
这些例子都是一维的,所以数据和权重都是数字。单看,可以看到最上面的三个式子每一个都含的线性函数,且每一项都会与0比较,取两者的最大值。第一个式子线性函数斜率是负的,后面两个斜率是正的,可作图如下:
上图中,横轴是 图10 有限差值计算梯度示意图 代码如下:def eval_numerical_gradient(f, x):
"""
我们是求L关于w的梯度,f就是损失L,x就是权重矩阵w
一个 f 在 x 处的数值梯度法的简单实现
- f 是参数 x 的函数,x 是矩阵,比如之前的 w 是10x3073
- x 是计算梯度的点
"""
fx = f(x) # 计算x点处的函数值
grad = np.zeros(x.shape) # 梯度矩阵也是10x3073
h = 0.00001 # 近似为0的变化量
# 对x中所有的索引进行迭代,比如从(0,0)到(9,3072)
it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
# np.nditer是np自带的迭代器
# flags=['multi_index']表示对 x 进行多重索引 比如(0,0)
# op_flags=['readwrite']表示不仅可以对x进行read(读取),还可以write(写入)
while not it.finished:
# 计算x+h处的函数值
ix = it.multi_index #索引从(0,0)开始,即从x矩阵第一行第一列的元素开始
old_value = x[ix] # 先将x(0,0)处原值保存
x[ix] = old_value + h # 增加h
fxh = f(x) # 计算新的f(x + h)
x[ix] = old_value # 将x(0,0)处改回原值
# 计算偏导数
grad[ix] = (fxh - fx) / h # x(0,0)处的偏导数
it.iternext() # 到下个维度x(0,1)
return grad # 最终是计算好的10x3073的梯度矩阵
实际中用中心差值公式(centered difference formula)()效果会更好。下面计算权重空间中的某些随机点上,CIFAR-10损失函数的梯度:
# 为了使用上面的代码,需要一个只有一个参数的函数
# (在这里参数就是权重W)所以封装了X_train和Y_train
def CIFAR10_loss_fun(W):
return L(X_train, Y_train, W)
W = np.random.rand(10, 3073) * 0.001 # 随机权重矩阵
df = eval_numerical_gradient(CIFAR10_loss_fun, W) # 得到梯度矩阵
梯度告诉我们损失函数在每个元素上的斜率,以此来进行更新:
loss_original = CIFAR10_loss_fun(W) # 初始损失值
print 'original loss: %f' % (loss_original, )
# 查看不同步长的效果
for step_size_log in [-10, -9, -8, -7, -6, -5,-4,-3,-2,-1]:
step_size = 10 ** step_size_log
W_new = W - step_size * df # 权重空间中的新位置,使用负梯度
loss_new = CIFAR10_loss_fun(W_new)
print 'for step size %f new loss: %f' % (step_size, loss_new)
# 输出:
# original loss: 2.200718
# for step size 1.000000e-10 new loss: 2.200652
# for step size 1.000000e-09 new loss: 2.200057
# for step size 1.000000e-08 new loss: 2.194116
# for step size 1.000000e-07 new loss: 2.135493
# for step size 1.000000e-06 new loss: 1.647802
# for step size 1.000000e-05 new loss: 2.844355
# for step size 1.000000e-04 new loss: 25.558142
# for step size 1.000000e-03 new loss: 254.086573
# for step size 1.000000e-02 new loss: 2539.370888
# for step size 1.000000e-01 new loss: 25392.214036
-
在梯度负方向上更新:在上面的代码中,为了计算W_new,要注意我们是向着梯度df的负方向去更新,这是因为我们希望损失函数值是降低而不是升高。(偏导大于0,损失递增,W需要减小;偏导小于0,损失递减,W需要增大。)
-
步长的影响:从某个具体的点W开始计算梯度,梯度指明了函数在哪个方向是变化率最大的,即损失函数下降最陡峭的方向,但是没有指明在这个方向上应该迈多大的步子。小步长下降稳定但进度慢,大步长进展快但是风险更大,可能导致错过最优点,让损失值上升。在上面的代码中就能看见反例,在某些点如果步长过大,反而可能越过最低点导致更高的损失值。选择步长(也叫作学习率)将会是神经网络训练中最重要(也是最头痛)的超参数设定之一。
-
效率问题:计算数值梯度的复杂性和参数的量线性相关。在本例中有30730个参数,所以损失函数每走一步就需要计算30731次损失函数(计算梯度时计算30730次,最终计算一次更新后的。),现代神经网络很容易就有上千万的参数,因此这个问题只会越发严峻。显然这个策略不适合大规模数据。
2.3.2 利用微分分析计算梯度
使用有限差值近似计算梯度比较简单,但缺点在于只是近似(因为我们对于h值是选取了一个很小的数值,但真正的梯度定义中h趋向0的极限),且耗费计算资源太多。得益于牛顿-莱布尼茨的微积分,我们可以利用微分来分析,得到计算梯度的公式(不是近似),用公式计算梯度速度很快,唯一不好的就是实现的时候容易出错。为了解决这个问题,在实际操作时常常将分析梯度法的结果和数值梯度法的结果作比较,以此来检查其实现的正确性,这个步骤叫做梯度检查。
比如我们已知多类SVM的数据损失Li:
可以对函数进行微分。比如对微分:
其中是一个示性函数,如果括号中的条件为真,那么函数值为1,如果为假,则函数值为0。
虽然上述公式看起来复杂,但在代码实现的时候比较简单:只需要计算没有满足边界值的即对损失函数产生贡献的分类的数量,然后乘以就是梯度了。注意,这个梯度只是对应正确分类的W的行向量的梯度,那些行的梯度是:
一旦将梯度的公式微分出来,代码实现公式并用于梯度更新就比较顺畅了。
2.4 梯度下降(Gradient Descent)
现在可以利用微分公式计算损失函数梯度了,程序重复地计算梯度然后对参数进行更新,这一过程称为梯度下降。
- 普通梯度下降
# 普通的梯度下降
while True:
weights_grad = evaluate_gradient(loss_fun, data, weights)
weights += - step_size * weights_grad # 进行梯度更新
这个简单的循环在所有的神经网络核心库中都有。虽然也有其他实现最优化的方法(比如LBFGS),但是到目前为止,梯度下降是对神经网络的损失函数最优化中最常用的方法。课程中,我们会在它的循环细节增加一些新的东西(比如更新的具体公式),但是核心思想不变,那就是我们一直跟着梯度走,直到结果不再变化。
- 小批量梯度下降(Mini-batch gradient descent)
在大规模的应用中(比如ILSVRC挑战赛),训练数据量 N 可以达到百万级量级。如果像这样计算整个训练集,来获得仅仅一个参数的更新就太浪费计算资源了。一个常用的方法通过训练集中的小批量(batches)数据来计算。例如,在目前最高水平的卷积神经网络中,一个典型的小批量包含256个样本,而整个训练集是一百二十万个样本。(CIFAR-10,就有50000个训练样本。)比如这个小批量数据就用来实现一个参数更新:
# 普通的小批量数据梯度下降
while True:
data_batch = sample_training_data(data, 256) # 从大规模训练样本中提取256个样本
weights_grad = evaluate_gradient(loss_fun, data_batch, weights)
weights += - step_size * weights_grad # 参数更新
这个方法之所以效果不错,是因为训练集中的数据都是相关的。要理解这一点,可以想象一个极端情况:在ILSVRC中的120万个图像是1000张不同图片的复制(每个类别1张图片,每张图片有1200张复制)。那么显然计算这1200张复制图像的梯度就应该是一样的。对比120万张图片的数据损失的均值与只计算1000张的子集的数据损失均值时,结果应该是一样的。实际情况中,数据集肯定不会包含重复图像,那么小批量数据的梯度就是对整个数据集梯度的一个近似。因此,在实践中通过计算小批量数据的梯度可以实现更快速地收敛,并以此来进行更频繁的参数更新。
小批量数据策略有个极端情况,那就是每个批量中只有1个数据样本,这种策略被称为随机梯度下降(Stochastic Gradient Descent 简称SGD),有时候也被称为在线梯度下降。SGD在技术上是指每次使用1个数据来计算梯度,你还是会听到人们使用SGD来指代小批量数据梯度下降(或者用MGD来指代小批量数据梯度下降)。小批量数据的大小是一个超参数,但是一般并不需要通过交叉验证来调参。它一般设置为同样大小,比如32,64,128等。之所以使用2的指数,是因为在实际中许多向量化操作实现的时候,如果输入数据量是2的指数,那么运算更快。
2.5 特征提取
直接输入原始像素,效果不好,可以将图像的特征计算出来,便于分类。
常用的特征计算方式:颜色直方图、词袋、计算边缘等,神经网络中是特征是训练过程中得到的。
总结
线性分类器各种细节,可在斯坦福大学开发的一个在线程序观看演示:点击这里
- 损失函数概述,数据损失与正则损失,多类SVM损失、softmax损失及两者的比较;
- W优化策略,梯度计算方法,梯度下降。
网友评论