美文网首页
Deep Linear Networks with Arbitr

Deep Linear Networks with Arbitr

作者: 馒头and花卷 | 来源:发表于2019-09-29 23:05 被阅读0次

Laurent T, Von Brecht J H. Deep linear networks with arbitrary loss: All local minima are global[C]. international conference on machine learning, 2018: 2902-2907.

问题

这篇文章是关于深度学习的一些理论分析.

假设这么一个网络:
\hat{y}^{(i)}=W_LW_{L-1}\cdots W_1 x^{(i)}.
其中x是输入,W_k是第k层的权重,而\hat{y}是最后的输出. 没错,这篇文章研究的是深度线性网络的性质(没有激活函数). 当然,这样子,无论有多少层,这个网络最后是一个普通线性函数,所以,作者的本意应该只是借此来窥探深度学习的一些性质.

作者证明了,在满足一定条件下,这个深度线性网络,任何局部最优解都是全局最优解.

假设和重要结果

损失函数如此表示:
\mathcal{L}(W_1, \ldots, W_L)=\frac{1}{N} \sum_{i=1}^N \ell (\hat{y}^{(i)}, y^{(i})

假设

  1. d_k表示第k+1层的神经元个数,即d_0表示输入层的维度,W_k \in \mathbb{R}^{d_{k-1} \times d_k}, d_L表示输出层的维度,
  2. d_k \ge \min \{d_0, d_L\}, 0 < k < L,
  3. 损失函数关于\hat{y}凸且可微.

定理1:满足上面假设的深度线性网络,任意局部最优都是全局最优.

考虑下面问题p(2):
\min \quad f(W_LW_{L-1}\cdots W_1),
并记A=W_LW_{L-1}\cdots W_1.
则:

定理3:
假设f(A)是任意的可微函数,且满足:
\min \{d_1, \ldots, d_{L-1}\} \ge \min \{d_0, d_L\},
则关于p(2)的任意的极小值点(\hat{W}_1, \ldots, \hat{W}_L),都将满足:
\nabla f(\hat{A})=0 \quad \hat{A} := \hat{W}_L \hat{W}_{L-1}\cdots \hat{W}_1.

证明

注意到, 可表示成:
\mathcal{L} (W_1, \ldots, W_L)=f(W_L\cdots W_1).
f(A)是关于A的凸的可微函数(注意是关于A), 所以,当\nabla f(\hat{A})=0的时候,\hat{A}便是f,即\mathcal{L}得最小值点. 这意味着,只要我们证明了定理3,也就证明了定理1.

下证定理3:

首先定义:


在这里插入图片描述

记:
F(W_1, \ldots, W_L) := f(W_L \cdots W_1).
容易证明(这部分论文中也给出了证明,不在此贴出):

在这里插入图片描述
其中:
在这里插入图片描述
不失一般性,假设, 因为令:

则,定义在之上,且使得为极小值,当且仅当使得为极小值,所以的地位是相同的,我们可以直接假设.

(\hat{W}_1, \ldots, \hat{W}_L)是最小值点,则存在\epsilon>0, 使得满足:

在这里插入图片描述
的点满足:
在这里插入图片描述

于是:

在这里插入图片描述
当的时候:

于是只要证明, 的时候,上式也成立即可.

我们的想法是构造一族极小值点, 满足:
\widetilde{A}=A,
通过一些性质,推出\nabla f(\hat{A})=0.

首先证明,满足:


在这里插入图片描述

的点都是极小值点.

因为:

在这里插入图片描述
所以:
在这里插入图片描述
所以也是一个极小值点.

那么如何来构造呢?

可知:

在这里插入图片描述
对进行奇异值分解:
在这里插入图片描述
因为, 所以其分解是这样的:
在这里插入图片描述
注意到,这里体现了为什么需要, 否则不可能等于(因为其秩永远小于).

假设k_*是第一个\mathrm{ker}(\hat{W}_{k, -}) = \not\{0\}的,则下面的构造便是我们所需要的:

在这里插入图片描述
其中表示奇异值分解的列, 很明显,满足.

条件(8)容易证明,用数学归纳法证明(9):
第一项成立,假设第k项也成立, 于是

在这里插入图片描述
也成立,所以条件成立.

既然满足其构造方式的所有点都是点都是极小值点,那么:

在这里插入图片描述
注意,对所有的满足条件的都成立.
的时候可得:
在这里插入图片描述
又, 所以:
在这里插入图片描述
注意到的时候,也有上面的形式.

首先,令\delta_{k_*+1}=0, 则\tilde{W}_{k_*+1}=\hat{W}_{k_*+1}, 于是:

在这里插入图片描述
在去任意, 与上式作差可得:
在这里插入图片描述
俩边同乘上可得:
在这里插入图片描述
因为是任意的,所以,左端为0,以此类推,最后可得:

证毕.

我没有把定理2放上来.

有一个方向,定理3中的极小值点改成极大值点,似乎定理也成立,即:
假设f(A)是任意的可微函数,且满足:
\min \{d_1, \ldots, d_{L-1}\} \ge \min \{d_0, d_L\},
则关于p(2)的任意的极大值点(\hat{W}_1, \ldots, \hat{W}_L),都将满足:
\nabla f(\hat{A})=0 \quad \hat{A} := \hat{W}_L \hat{W}_{L-1}\cdots \hat{W}_1.
我自己仿照论文的证明是可以证明出来的,不过,既然\nabla f(\hat{A})=0, 那么\hat{A}依然是\mathcal{L}的最小值点,是不是可以这么认为,f压根没有存粹的极大值点.

另外作者指出,极小值点不能改为驻点,因为A=0便是一个驻点,但是没有f(0)必须为0的规定.
此外作者还说明了,为什么要可微等等原因,详情回见论文.

相关文章

网友评论

      本文标题:Deep Linear Networks with Arbitr

      本文链接:https://www.haomeiwen.com/subject/ydewyctx.html