浅层神经网络

作者: AI研习社 | 来源:发表于2019-06-04 14:37 被阅读17次

神经网络和深度学习 - Chapter3 浅层神经网络
图床
用numpy写神经网络
机器学习 week3
吴恩达深度学习-神经网络基础（浅层神经网络）
神经网络（一）
神经网络（二）
浅层神经网络
浅层神经网络
浅层神经网络

本文为 AI 研习社编译的技术博客，原标题：

Shallow Neural Networks

作者 | Rochak Agrawal

翻译 | hxyzzz0 编辑 | 邓普斯•杰弗、王立鱼

原文链接：

https://towardsdatascience.com/shallow-neural-networks-23594aa97a5

每当我们听到神经网络的大名时，就会认为它里面有许许多多的隐藏层，但其实还有一种只有少量隐藏层的神经网络，浅神经网络只包含一到两层隐藏层。对浅神经网络的研究可以加强我们对深度神经网络内部运行机制的理解。本文将介绍什么是浅神经网络以及它的数学原理。下图所示是一个只包含一个隐藏层、一个输入层和一个输出层的浅神经网络。

神经元

神经元是神经网络中的原子单元。给定神经元一个输入，它将得到对应的输出，并将其作为下一层的输入。一个神经元可以认为是以下两部分的结合：

第一部分根据输入和权重来计算得到Z 。

第二部分在Z上施加激活函数得到神经元的最终输出A。

隐藏层

隐藏层由许多神经元组成，每一个都会执行上述两步运算。在上图的浅层神经网络中，隐藏层的四个神经元进行如下计算：

在上面的方程中：

下标i表示第i层，下标j表示该层的第j个神经元。

X是包含3个特征的输入向量。

W[i]j是第i层第j个神经元的权值。

b[i]j 是第i层第j个神经元的偏置。

Z[i]j 是第i层第j个神经元的中间输出。

A[i]j 第i层第j个神经元的最终输出。

Sigma 是sigmoid激活函数。它的数学定义是：

显而易见，上述四个方程比较冗长，因此我们把它们进行向量化：

第一个方程用一个矩阵乘法计算所有的中间输出Z。

第二个方程用一个矩阵运算计算所有的激活函数输出A。

浅层神经网络

神经网络通常由若干隐藏层构建。现在我们已经知道了某一层的计算方法，接下来学习如何在整个神经网络中根据给定输入X计算输出。以下这些方程也称为前向传播方程。

第一个方程计算第一个隐藏层的中间输出Z[1]。

第二个方程计算第一个隐藏层的最终输出A[1]。

第三个方程计算输出层的中间输出Z[2]。

第四个方程计算输出层的最终输出A[2]，也就是整个神经网络的最终输出。

激活函数

我们知道，一个神经网络根本上来说就是一组数学方程和权重的集合。为了提高神经网络的鲁棒性，从而在各种不同的场景下都能得到很好的效果，我们使用了激活函数。这些激活函数为神经网络引入了非线性特性。接下来在浅层神经网络的基础上理解激活函数的重要性。

如果没有激活函数，我们的浅层神经网络可以被表示成：

将方程一中的Z[1]代入方程2得到如下方程：

显而易见，输出将是一个新权重矩阵W、输入X和新偏置矩阵b线性组合，意味着隐藏层中的神经元及其权重都失去了意义。因此，我们需要用激活函数为网络引入非线性特性。

激活函数有许多种，包括Sigmoid、Tanh、ReLU等等，并且可以在每层使用不同的激活函数。你可以在下面这篇文章中得到关于激活函数的更多信息。

（https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6）

权值初始化

神经网络的权重矩阵通常是随机初始化的。那么为什么不能将它初始化为0或者其它什么值呢？接下来通过我们的浅层神经网络来理解这个问题。

让我们用0或者其它值来初始化第一层的权重矩阵W1，和第二层的权重矩阵W2。现在，如果权重矩阵保持不变，那么隐藏层中神经元的激活函数也相同，激活函数的导数也相同。因此，该隐藏层中的各个神经元的权值将被修改为类似的值，从而某一隐藏层无需再包含多于一个神经元。然而这并非我们想要的。相反，我们希望隐藏层中的每一个神经元都独一无二，拥有不同的权重并且作为一个独立的方程来运算。因此，我们需要随机初始化权值。

最好的初始化方法是Xavier初始化。它的数学定义是：