美文网首页
第四章 深层神经网络

第四章 深层神经网络

作者: 一叶知否 | 来源:发表于2019-09-29 20:57 被阅读0次

1.深层神经网络

        到目前为止我们熟悉了logistic回归、单隐藏层神经网络、前向和后向传播、向量化以及为什么随机初始化比较重要。现在要把这些理念结合起来构成深度神经网络模型。

图4.1 logistic回归、单隐藏层双层神经网络、双隐藏层三层神经网络、五隐藏层六层神经网络    

        如图4.1,logistic回归可以看成是单层神经网络,层数是指隐藏层加输出层,浅层和深层只是一个程度问题。对于具体问题,一开始我们并不能准确预测需要多少层神经网络,可以先从logistic回归开始,逐渐增加层数,找到合适层数的神经网络。

图4.2 深层神经网络标记方式      

        如图4.2,我们用大写L表示层数如L=4,小写l表示某一层,n^{[l]}表示某一层单元数如n^{[3]}=3,a^{[l]}表示第l层激活函数如a^{[l]}=g^{[l]}(z^{[l]}),类似表示还有w^{[l]}b^{[l]}

图4.3 深层神经网络前向传播

如图4.3,前向过程为

z^{[1]}=w^{[1]}x+b^{[1]}a^{[1]}=g^{[1]}(z^{[1]}),

z^{[2]}=w^{[2]}a^{[1]}+b^{[2]}a^{[2]}=g^{[2]}(z^{[2]})

...

z^{[4]}=w^{[4]}a^{[3]}+b^{[3]}a^{[3]}=g^{[3]}(z^{[3]}),

x可以表示为a^{[0]},则z^{[l]}=w^{[l]}a^{[l-1]}+b^{[l]}a^{[l]}=g^{[l]}(z^{[l]})。

向量化过程为

Z^{[1]}=W^{[1]}A^{[0]}+b^{[1]}A^{[1]}=g^{[1]}(Z^{[1]}),

Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}A^{[2]}=g^{[2]}(Z^{[2]})

...

Z^{[4]}=W^{[4]}A^{[3]}+b^{[4]}

=A^{[4]}=g^{[4]}(Z^{[4]})。

3.核对矩阵的维数

        实现深度神经网络的时候,防止代码出错,我们应该用纸笔过一遍算法中矩阵维数。

图4.4 各步骤矩阵维数

4.为什么要使用深层网络

        深度网络可以解决很多问题,神经网络不要很大,但是要有深度,即要有比较多的隐藏层。

图4.5 神经网络的直觉解释过程      

        如图4.5,假设这是人脸识别过程,根据直觉,我们认为第1层识别边缘,第2层利用上一层的边缘结合成各个部位,第三层利用上一层的部位结合成人脸,再比如音频识别也类似,从简单到复杂一步步识别。前面的层识别一些低层次的特征,到后面的层就能结合前面的特征去探测更加复杂的东西。从而需要神经网络需要很多层,即深层网络。这些灵感来源是人类大脑,大脑识别也是从简单开始,然后再结合到整体。

图4.6 异或运算

        如图4.6,计算y=x_1XOR x_2XOR x3... x_{n-1}XOR x_n,使用多层计算(图左),很少的隐藏单元计算出y。但使用单层计算(图右),需要指数级更多的隐藏单元,因为可能有2^{n-1}种情况。即深层层计算更容易计算出y。

        其实深度学习只不过就是多隐藏层神经网络学习

5.搭建深层神经网络块

        前面已经看到了正向反向传播的基础组成部分,他们也是深度神经网络的重要组成部分。

图4.7 深层神经网络

        如图4.7,输入a^{[0]}(即x),计算出a^{[1]},缓存z^{[1]}a^{[1]}w^{[1]}b^{[1]}供反向传播使用,这个过程不断循环,直到计算出a^{[l]},缓存z^{[l]}a^{[l]}w^{[l]}b^{[l]}供反向传播使用,然后进入反向传播。

6.前向和反向传播

        构建深度神经网络的基本模块,每一层都有前向传播步骤和相对的后向传播步骤。接下来看看具体传播步骤。

图4.8 某一层前向传播过程及向量化 图4.9 某一层后向传播过程及向量化      

7.参数和超参数

        想要你的深度神经网络起很好的效果,还要规划好参数以及超参数。神经网络模型中的W和b是参数,学习率∝、梯度下降循环次数、隐藏层数L、隐藏单元数(n^{[1]},n^{[2]})、激活函数等这些属于超参数。超参数需要人为设定,超参数实际上决定着参数W和b的值。

        还有其他超参数比如momentum、mini batch大小、正则化参数等,这些稍后会讲。

图4.10 通过经验获取最佳超参数      

        如图4.10,设置超参数需要不断尝试,根据成本函数值变化去调整超参数。

8.深度学习和大脑有什么关系

        一句话,关系不大,深度学习或者其他学科只是受大脑神经元启发。

相关文章

网友评论

      本文标题:第四章 深层神经网络

      本文链接:https://www.haomeiwen.com/subject/tdseyctx.html