DL之AE&SAE

作者: 活体检测业余爱好 | 来源:发表于2017-07-10 12:49 被阅读214次

DL之AE&SAE
UEditor兼容新浪sae
合金钢SAEJ404-2000 SAE执行标准# SAEJ404
C1 微信公众号开发认证接口 python+flask+sae
SAE J404-2000 SAE合金钢SAE4340合金结构钢
河钢集团（舞阳钢铁有限责任公司） SAEJ404-2000
Laravel on SAE use Qiniu
SW、CATIA等主流三维软件可直接使用航空航天标准的CAD模型
SAE 的极致应用部署效率
sae flask微信公众号开发

一个自动编码器AutoEncoder（AE）

原理：自编码器可以理解为一个试图去还原其原始输入的系统

图中，虚线蓝色框内就是一个自编码器模型，它由编码器（Encoder）和解码器（Decoder）两部分组成，本质上都是对输入信号做某种变换。编码器将输入信号x变换成编码信号y，而解码器将编码y转换成输出信号。

AE原理

输入d维向量x，在输入和隐层之间网络把x映射到d'维向量y（输入映射到隐藏层这步叫做编码）

s是编码器激活函数，例如sigmoid函数。

然后从隐层到输出层，网络把y映射回到d维空间（隐藏层映射到输出这步叫做解码），要求z与x尽可能的相似，从而完成重建（reconstruction）

s是解码器激活函数，例如sigmoid函数。如果限定W'是W的转置，这叫tied weights，当然这是可选的。

如果没有选用tied weights，网络就需要训练W，W'，b，b'四个参数，使得重建的误差最小。

重构误差可用平方误差函数或交叉熵损失函数，二者分别表示为：

其中，平方误差用于线性解码函数s，交叉熵损失函数用于sigmoid。

参数的训练用梯度下降法。

SAE

有过深度学习基础的童鞋想必了解，深层网络的威力在于其能够逐层地学习原始数据的多种表达。每一层的都以底一层的表达为基础，但往往更抽象，更加适合复杂的分类等任务。

堆叠自编码器实际上就在做这样的事情，如前所述，单个自编码器通过虚构x→h→x的三层网络，能够学习出一种特征变化h=fθ(x)（这里用θ表示变换的参数，包括W,b和激活函数）。实际上，当训练结束后，输出层已经没什么意义了，我们一般将其去掉，即将自编码器表示为

之前之所以将自编码器模型表示为3层的神经网络，那是因为训练的需要，我们将原始数据作为假想的目标输出，以此构建监督误差来训练整个网络。等训练结束后，输出层就可以去掉了，我们关心的只是从x到h的变换。

接下来的思路就很自然了——我们已经得到特征表达h，那么我们可不可以将

h再当做原始信息，训练一个新的自编码器，得到新的特征表达呢？当然可以！这就是所谓的堆叠自编码器（Stacked Auto-Encoder, SAE）。Stacked就是逐层垒叠的意思，跟“栈”有点像。UFLDL教程将其翻译为“栈式自编码”，anyway，不管怎么称呼，都是这个东东，别被花里胡哨的专业术语吓到就行。当把多个自编码器Stack起来之后，这个系统看起来就像这样：

亦可赛艇！这个系统实际上已经有点深度学习的味道了，即learning multiple levels of representation and abstraction(Hinton, Bengio, LeCun, 2015)。需要注意的是，整个网络的训练不是一蹴而就的，而是逐层进行。按题主提到的结构n,m,k结构，实际上我们是先训练网络n→m→n，得到n→m的变换，然后再训练m→k→m，得到m→k的变换。最终堆叠成SAE，即为n→m→k的结果，整个过程就像一层层往上盖房子，这便是大名鼎鼎的layer-wise unsuperwised pre-training（逐层非监督预训练），正是导致深度学习（神经网络）在2006年第3次兴起的核心技术。

接着下面的，我会了解微调的意思，以及网络是如何训练的（比如Deep Learning-Based Classification of Hyperspectral Data文章中的SAE网络，后面也是接的softmax分类器吧）

Deep learning：二十四(stacked autoencoder练习)

前言：

本次是练习2个隐含层的网络的训练方法，每个网络层都是用的sparse autoencoder思想，利用两个隐含层的网络来提取出输入数据的特征。本次实验验要完成的任务是对MINST进行手写数字识别，实验内容及步骤参考网页教程Exercise: Implement deep networks for digit classification。当提取出手写数字图片的特征后，就用softmax进行对其进行分类。关于MINST的介绍可以参考网页：MNIST Dataset。本文的理论介绍也可以参考前面的博文：Deep learning：十六(deep networks)。

实验基础：

进行deep network的训练方法大致如下：

1.用原始输入数据作为输入，训练出（利用sparse autoencoder方法）第一个隐含层结构的网络参数，并将用训练好的参数算出第1个隐含层的输出。

2.把步骤1的输出作为第2个网络的输入，用同样的方法训练第2个隐含层网络的参数。

3.用步骤2的输出作为多分类器softmax的输入，然后利用原始数据的标签来训练出softmax分类器的网络参数。

4.计算2个隐含层加softmax分类器整个网络一起的损失函数，以及整个网络对每个参数的偏导函数值。

5.用步骤1，2和3的网络参数作为整个深度网络（2个隐含层,1个softmax输出层）参数初始化的值，然后用lbfs算法迭代求出上面损失函数最小值附近处的参数值，并作为整个网络最后的最优参数值。

上面的训练过程是针对使用softmax分类器进行的，而softmax分类器的损失函数等是有公式进行计算的。所以在进行参数校正时，可以对把所有网络看做是一个整体，然后计算整个网络的损失函数和其偏导，这样的话当我们有了标注好了的数据后，就可以用前面训练好了的参数作为初始参数，然后用优化算法求得整个网络的参数了。但如果我们后面的分类器不是用的softmax分类器，而是用的其它的，比如svm，随机森林等，这个时候前面特征提取的网络参数已经预训练好了，用该参数是可以初始化前面的网络，但是此时该怎么微调呢？因为此时标注的数值只能在后面的分类器中才用得到，所以没法计算系统的损失函数等。难道又要将前面n层网络的最终输出等价于第一层网络的输入（也就是多网络的sparse autoencoder）?本人暂时还没弄清楚，日后应该会想明白的