机器学习之神经网络1前向传播

作者: 你要好好学习呀 | 来源:发表于2019-03-11 20:10 被阅读0次

深度学习概念和基础
机器学习之神经网络1前向传播
深度学习神经网络模型二
神经网络之Sigmoid、Tanh、ReLU、LeakyReLU
意图识别和槽位填充-paper相关
机器学习入门——前向传播
卷积神经网络（三）—— 反向传播
吴恩达-神经网络和深度学习（第三周浅层神经网络：）
神经网络和反向传播算法
姓名：于倩学号：21011210116学院：通信工程学院

神经网络是学习复杂的非线性问题的一种很好的算法

顾名思义，神经网络的名字来源自人的大脑结构

为了构建神经网络模型，需要首先思考大脑中的神经网络是怎样的？-----每一个神经元都可以被认为是一个处理单元/神经核，它含有许多输入/树突，并且有一个输出/轴突。神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络。

神经网络模型建立在很多神经元之上，每一个神经元又是一个个学习模型。这些神经元（也叫激活单元，activation unit）采纳一些特征作为输入，并且根据本身的模型提供一个输出。下图是一个构建的神经网络示例，在神经网络中，参数 $\theta$ 又可被称为权重（weight）

其中 $x_{1},x_{2} ,x_{3}$ 是输入单元（input units），将原始数据(特征)输入给它们。 $a_{1},a_{2},a_{3}$ 是中间单元，它们负责将数据进行处理，然后呈递到下一层。最后是输出单元，它负责计算 $h_{\theta } (x)$ 。

神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。上图为一个3层的神经网络，第一层成为输入层（Input Layer），最后一层称为输出层（Output Layer），中间一层成为隐藏层（Hidden Layers）。我们为每一层都增加一个偏差单位（bias unit),如下图所示：

引入一些标记来帮助描述模型： $a_{i}^j$ 代表第 j层的第 i个激活单元。 $\theta ^j$ 代表从第 j层映射到第j+1 层时的权重的矩阵，例如 $\theta ^1$ 代表从第一层映射到第二层的权重的矩阵。其尺寸为：以第j+1 层的激活单元数量为行数，以第j 层的激活单元数加一为列数的矩阵。例如：上图所示的神经网络中 $\theta ^1$ 的尺寸为 3*4。

对于上图所示的模型，激活单元和输出的表达式为：

可以知道：每一个 $a$ 都是由上一层所有的x和每一个x所对应的权重决定的。利用向量化的方法会使得计算更为简便。（以计算第二层的值为例）

我们令 $z^2=\theta ^1 x$ ，则 $a^2=g(z^2)$ ，计算后添加 $a_{0}^2$ =1。计算输出的值为：

令 $z^3=\theta ^2a^2$ ,则 $h_{\theta } (x)=a^3=g(z^3)$ 。这只是针对训练集中一个训练实例所进行的计算。如果我们要对整个训练集进行计算，我们需要将训练集特征矩阵进行转置，使得同一个实例的特征都在同一列里。

为了更好地了解神经网络的工作原理，先把前半部分遮住，如下图所示：

右半部分其实就是以a0,a1,a2,a3为特征，按照逻辑回归的方式输出 $h_{\theta } (x)$

其实神经网络就像是逻辑回归，只不过我们把逻辑回归中的输入向量 x1,x2,x3变成了中间层的a1,a2,a3, 我们可以a0,a1,a2,a,3把看成更为高级的特征值，也就是x0,x1,x2,x3的进化体，并且它们是由 x与 $\theta$ 决定的，因为是梯度下降的，所以a是变化的，并且变得越来越厉害，所以这些更高级的特征值远比仅仅使用逻辑回归厉害，也能更好的预测新数据。这就是神经网络相比于逻辑回归和线性回归的优势。

至此，解释前向传播的含义：从输入单元的激活项开始，然后进行前向传播给隐藏层，计算隐藏层的激活值。然后继续前向传播，直至计算出输出层的隐藏值。

多类分类初了解：

当有不止两种分类时（也就是y=1,2,3...），如果我们要训练一个神经网络算法来识别路人、汽车、摩托车和卡车，在输出层我们应该有4个值。例如，第一个值为1或0用于预测是否是行人，第二个值用于判断是否为汽车。

输入向量x有三个维度，两个中间层，输出层4个神经元分别用来表示4类，也就是每一个数据在输出层都会出现 $[a,b,c,d]^T$ ，且a,b,c,d中仅有一个为1，表示当前类。下面是该神经网络的可能结构示例：