问题
这篇文章是关于深度学习的一些理论分析.
假设这么一个网络:
其中是输入,
是第
层的权重,而
是最后的输出. 没错,这篇文章研究的是深度线性网络的性质(没有激活函数). 当然,这样子,无论有多少层,这个网络最后是一个普通线性函数,所以,作者的本意应该只是借此来窥探深度学习的一些性质.
作者证明了,在满足一定条件下,这个深度线性网络,任何局部最优解都是全局最优解.
假设和重要结果
损失函数如此表示:
假设
-
表示第
层的神经元个数,即
表示输入层的维度,
,
表示输出层的维度,
-
,
- 损失函数关于
凸且可微.
定理1:满足上面假设的深度线性网络,任意局部最优都是全局最优.
考虑下面问题p(2):
并记.
则:
定理3:
假设是任意的可微函数,且满足:
则关于p(2)的任意的极小值点,都将满足:
证明
注意到, 可表示成:
则是关于
的凸的可微函数(注意是关于
), 所以,当
的时候,
便是
,即
得最小值点. 这意味着,只要我们证明了定理3,也就证明了定理1.
下证定理3:
首先定义:
![](https://img.haomeiwen.com/i16313196/4efb6994f06c6dfe.png)
记:
容易证明(这部分论文中也给出了证明,不在此贴出):
![](https://img.haomeiwen.com/i16313196/36fa983c2af68a58.png)
其中:
![](https://img.haomeiwen.com/i16313196/1340824d991aa062.png)
不失一般性,假设, 因为令:
则,定义在之上,且使得为极小值,当且仅当使得为极小值,所以的地位是相同的,我们可以直接假设.
是最小值点,则存在
, 使得满足:
![](https://img.haomeiwen.com/i16313196/db6e7fa11d01193d.png)
的点满足:
![](https://img.haomeiwen.com/i16313196/b8ad67cb93f3a2d7.png)
于是:
![](https://img.haomeiwen.com/i16313196/d32de7eb404b02f1.png)
当的时候:
于是只要证明, 的时候,上式也成立即可.
我们的想法是构造一族极小值点, 满足:
通过一些性质,推出.
首先证明,满足:
![](https://img.haomeiwen.com/i16313196/1e492fef36eb0b9e.png)
的点都是极小值点.
因为:
![](https://img.haomeiwen.com/i16313196/271e9809bc22c87f.png)
所以:
![](https://img.haomeiwen.com/i16313196/7177ed9f2c9da890.png)
所以也是一个极小值点.
那么如何来构造呢?
可知:
![](https://img.haomeiwen.com/i16313196/c54799c130160870.png)
对进行奇异值分解:
![](https://img.haomeiwen.com/i16313196/4afc3a745a3e1af8.png)
因为, 所以其分解是这样的:
注意到,这里体现了为什么需要, 否则不可能等于(因为其秩永远小于).
假设是第一个
的,则下面的构造便是我们所需要的:
其中表示奇异值分解的列, 很明显,满足.
条件(8)容易证明,用数学归纳法证明(9):
第一项成立,假设第项也成立, 于是
也成立,所以条件成立.
既然满足其构造方式的所有点都是点都是极小值点,那么:
![](https://img.haomeiwen.com/i16313196/4651794eb2cac7c7.png)
注意,对所有的满足条件的都成立.
的时候可得:
![](https://img.haomeiwen.com/i16313196/ff9e157fed72997e.png)
又, 所以:
![](https://img.haomeiwen.com/i16313196/c536e554fb9e5296.png)
注意到的时候,也有上面的形式.
首先,令, 则
, 于是:
![](https://img.haomeiwen.com/i16313196/ad0aeca81ba9b2fe.png)
在去任意, 与上式作差可得:
![](https://img.haomeiwen.com/i16313196/54b2aa62ed6a05cf.png)
俩边同乘上可得:
![](https://img.haomeiwen.com/i16313196/2bda4db8389c2cd0.png)
因为是任意的,所以,左端为0,以此类推,最后可得:
证毕.
注
我没有把定理2放上来.
有一个方向,定理3中的极小值点改成极大值点,似乎定理也成立,即:
假设是任意的可微函数,且满足:
则关于p(2)的任意的极大值点,都将满足:
我自己仿照论文的证明是可以证明出来的,不过,既然, 那么
依然是
的最小值点,是不是可以这么认为,
压根没有存粹的极大值点.
另外作者指出,极小值点不能改为驻点,因为便是一个驻点,但是没有
必须为0的规定.
此外作者还说明了,为什么要可微等等原因,详情回见论文.
网友评论