第四章深层神经网络

作者: 一叶知否 | 来源:发表于2019-09-29 20:57 被阅读0次

TensorFlow 实战Google深度学习框架（第2版）第四
2018-02-21深层神经网络
1-4 深层神经网络
神经网络和深度学习 - Chapter4 深层神经网络
深度学习第4次作业
神经网络中的批量归一化Batch Normalization(B
第四章深层神经网络
【学习笔记】第四周深层神经网络
1.4 深层神经网络（Deep Neural Networks）
[tensorflow](二)DNN

1.深层神经网络

到目前为止我们熟悉了logistic回归、单隐藏层神经网络、前向和后向传播、向量化以及为什么随机初始化比较重要。现在要把这些理念结合起来构成深度神经网络模型。

图4.1 logistic回归、单隐藏层双层神经网络、双隐藏层三层神经网络、五隐藏层六层神经网络

如图4.1，logistic回归可以看成是单层神经网络，层数是指隐藏层加输出层，浅层和深层只是一个程度问题。对于具体问题，一开始我们并不能准确预测需要多少层神经网络，可以先从logistic回归开始，逐渐增加层数，找到合适层数的神经网络。

图4.2 深层神经网络标记方式

如图4.2，我们用大写L表示层数如L=4，小写l表示某一层， $n^{[l]}$ 表示某一层单元数如 $n^{[3]}$ =3， $a^{[l]}$ 表示第l层激活函数如 $a^{[l]}$ = $g^{[l]}$ ( $z^{[l]}$ )，类似表示还有 $w^{[l]}$ ， $b^{[l]}$ 。

图4.3 深层神经网络前向传播

如图4.3，前向过程为

$z^{[1]}$ = $w^{[1]}$ x+ $b^{[1]}$ ， $a^{[1]}$ = $g^{[1]}$ ( $z^{[1]}$ )，

$z^{[2]}$ = $w^{[2]}$ $a^{[1]}$ + $b^{[2]}$ ， $a^{[2]}$ = $g^{[2]}$ ( $z^{[2]}$ )

...

$z^{[4]}$ = $w^{[4]}$ $a^{[3]}$ + $b^{[3]}$ ， $a^{[3]}$ = $g^{[3]}$ ( $z^{[3]}$ )，

x可以表示为 $a^{[0]}$ ，则 $z^{[l]}$ = $w^{[l]}$ $a^{[l-1]}$ + $b^{[l]}$ ， $a^{[l]}$ = $g^{[l]}$ ( $z^{[l]}$ )。

向量化过程为

$Z^{[1]}$ = $W^{[1]}$ $A^{[0]}$ + $b^{[1]}$ ， $A^{[1]}$ = $g^{[1]}$ ( $Z^{[1]}$ )，

$Z^{[2]}$ = $W^{[2]}$ $A^{[1]}$ + $b^{[2]}$ ， $A^{[2]}$ = $g^{[2]}$ ( $Z^{[2]}$ )

...

$Z^{[4]}$ = $W^{[4]}$ $A^{[3]}$ + $b^{[4]}$ ，

= $A^{[4]}$ = $g^{[4]}$ ( $Z^{[4]}$ )。

3.核对矩阵的维数

实现深度神经网络的时候，防止代码出错，我们应该用纸笔过一遍算法中矩阵维数。

图4.4 各步骤矩阵维数

4.为什么要使用深层网络

深度网络可以解决很多问题，神经网络不要很大，但是要有深度，即要有比较多的隐藏层。

图4.5 神经网络的直觉解释过程

如图4.5，假设这是人脸识别过程，根据直觉，我们认为第1层识别边缘，第2层利用上一层的边缘结合成各个部位，第三层利用上一层的部位结合成人脸，再比如音频识别也类似，从简单到复杂一步步识别。前面的层识别一些低层次的特征，到后面的层就能结合前面的特征去探测更加复杂的东西。从而需要神经网络需要很多层，即深层网络。这些灵感来源是人类大脑，大脑识别也是从简单开始，然后再结合到整体。

图4.6 异或运算

如图4.6，计算y= $x_1$ XOR $x_2$ XOR $x3$ ... $x_{n-1}$ XOR $x_n$ ，使用多层计算（图左），很少的隐藏单元计算出y。但使用单层计算（图右），需要指数级更多的隐藏单元，因为可能有 $2^{n-1}$ 种情况。即深层层计算更容易计算出y。

其实深度学习只不过就是多隐藏层神经网络学习

5.搭建深层神经网络块

前面已经看到了正向反向传播的基础组成部分，他们也是深度神经网络的重要组成部分。

图4.7 深层神经网络

如图4.7，输入 $a^{[0]}$ （即x），计算出 $a^{[1]}$ ，缓存 $z^{[1]}$ ， $a^{[1]}$ ， $w^{[1]}$ ， $b^{[1]}$ 供反向传播使用，这个过程不断循环，直到计算出 $a^{[l]}$ ，缓存 $z^{[l]}$ ， $a^{[l]}$ ， $w^{[l]}$ ， $b^{[l]}$ 供反向传播使用，然后进入反向传播。

6.前向和反向传播

构建深度神经网络的基本模块，每一层都有前向传播步骤和相对的后向传播步骤。接下来看看具体传播步骤。

图4.8 某一层前向传播过程及向量化

图4.9 某一层后向传播过程及向量化

7.参数和超参数

想要你的深度神经网络起很好的效果，还要规划好参数以及超参数。神经网络模型中的W和b是参数，学习率∝、梯度下降循环次数、隐藏层数L、隐藏单元数（ $n^{[1]}$ , $n^{[2]}$ ）、激活函数等这些属于超参数。超参数需要人为设定，超参数实际上决定着参数W和b的值。

还有其他超参数比如momentum、mini batch大小、正则化参数等，这些稍后会讲。

图4.10 通过经验获取最佳超参数

如图4.10，设置超参数需要不断尝试，根据成本函数值变化去调整超参数。

8.深度学习和大脑有什么关系

一句话，关系不大，深度学习或者其他学科只是受大脑神经元启发。

TensorFlow 实战Google深度学习框架（第2版）第四
第四章：深层神经网络 * 4.1深度学习与深层神经网络 * 4.1.1线性模型的局限性 * 4.1.2激活...
2018-02-21深层神经网络
深层神经网络什么是深层神经网络及其标记表示，如图深层神经网络中的前向传播类比浅层神经网络的计算，一级一级算过...
1-4 深层神经网络
吴恩达《神经网络和深度学习》课程笔记 1. 深层神经网络为什么深层神经网络可以达到很好的效果？可以这样理解深层...
神经网络和深度学习 - Chapter4 深层神经网络
浅层、深层神经网络对比深层神经网络符号定义：表示神经网络的层数；表示第层神经元个数；表示第层神经元激活值；...
深度学习第4次作业
1.深层神经网络 3.核对矩阵的维数 4.为什么使用深层表示 5.搭建深层神经网络块 6.前向和反向传播 7.参数...
神经网络中的批量归一化Batch Normalization(B
0.概述深层神经网络存在的问题(从当前层的输入的分布来分析)：在深层神经网络中，中间层的输入是上一层神经网络的输...
第四章深层神经网络
1.深层神经网络到目前为止我们熟悉了logistic回归、单隐藏层神经网络、前向和后向传播、向量化以及为什么随机...
【学习笔记】第四周深层神经网络
梯度下降公式，包括向量化深层神经网络表示，注意一些参数的数值深层神经网络的前向传播，注意右边矢量化的内容某一...
1.4 深层神经网络（Deep Neural Networks）
1. 深层神经网络（Deep L-layer Neural network）什么是深度神经网络呢？首先，我们之...
[tensorflow](二)DNN
20181125 qzd 深度学习与深层神经网络损失函数定义神经网络优化进一步优化