- 首先,根据多种单元分析方法,我们发现单个的高层次单元与随机线性组合的高层次单元之间并没有差别(也就是说单个节点与多个节点的线性组合是没有区别的)。这说明神经网络包含的语义信息是一个空间,而不是一个独立的单元。
- 第二,我们发现,深度神经网络所学习的输入-输出映射在很大程度上不连续的。
Unit
第一个性质主要是讲关于独立节点的语义信息的。先前研究这个性质的工作都是去寻找一个或多个使得能最大化激活某个节点的输入,然后分析这一个或多个输入的共同语义信息。如果有,则表明这个节点控制着这些语义信息。这种方法,实际上做了一个隐含的假设:即最后一层的节点能形成一个基,这个基对提取语义信息是特别有用的。而以前的研究方法可以被形式化为:
其中就表示要研究的隐藏层(一般是输出层的前一层),则表示一个自然向量基(形式如(0,1,0,0,...,0))。
下面是他的结果图。解释一下Figure 1中的a子图:把MINST的测试集输入到网络,并计算与的点积,进行排序,作者挑选了top 10的图片。然后作者发现,这些被选出来的图片都具有一些相同的语义信息,如在数字的底端都是圆笔画。
image.png作者为了验证他的结论,做了个对比试验。他把自然向量基改成了随机向量,形式化如下:
实验结果显示:用随机向量基赋予节点值也能找到具有语义的图片。
image.png
Blind Spots in Neural Networks
到目前为止,单元级的检查方法除了确认由深度神经网络学习的表示的复杂性的某些直觉之外,几乎没有什么用处。在解释由模型做出的分类决策时,全局网络级检查方法是有用的。实际上是说:局部分析没啥用,整体分析网络才有价值。
有人认为,在神经网络的输入和输出单元之间的非线性层的深层堆叠是模型在输入空间上编码非局部泛化的一种方法。换句话说,假设输出单元有可能为输入空间中没有包含训练示例的区域分配非显著(并且,假设是非epsilon)概率。例如,这些区域可以表示来自不同视点的相同对象,这些视点相对较远(在像素空间中),但是它们共享原始输入的标签和统计结构。
在这些论点中,隐含的观点是,局部生成,即与训练样本非常接近,正如预期的那样有效。特别的,对于给定的输入,以及足够小的半径:,满足。是会被分类模型以高置信度的方式正确分类。这种平滑假设通常是适用于计算机视觉问题的。即给定图像的微小扰动通常不会改变原始的类别。
然而,作者发现,对于深度神经网络,这个光滑的假设并不成立。作者提出一种优化方法,该方法能在原始的图像上加入一些不可察觉的扰动,使得模型分类错误,并把这些被误判的样本叫做对抗样本。
在某种意义上,作者所描述的是一种以一种有效的方式(通过优化)遍历网络所表示的流形,并在输入空间中找到对抗性的例子的方法。对样样本可以理解成是流形中的一个低概率“口袋”,这个很难通过对输入样本加入随机噪声寻找到。
下面作者为了找出对抗样本提出了如下形式化表达:
(论文中有讲到啥啥啥的,这块看不太懂,希望有人指明!)
将上述式子转化为可计算的形式:
扰动程度标准:
稳定性分析
文章提出,通过衡量每一个修正层的幅度来衡量和控制网络的附加稳定性。
记为层网络输出层的输出。
通过检查每一层()的利普希茨常数()来衡量的不稳定性。每次层网络满足:
最终的输出满足:
Lipschitz条件,即利普希茨连续条件(Lipschitz continuity)。其定义为:对于函数,若其任意定义域中的,都存在,使得,则函数称为在定义域上满足利普希茨(Lipschitz)条件
网友评论