深度学习入门（2）神经网络

作者: 阿旭123 | 来源:发表于2020-11-29 15:37 被阅读0次

上一篇文章《深度学习入门(1)感知机》主要介绍了神经网络的起源--感知机的基础知识及实现方式。本文主要介绍如何自己动手实现神经网络。

上一篇中，对于感知机权重参数wi的设定，是由人工来进行确定的，即确定合适的、能够符合预期的输入与输出的权重。但是实际的神经网络可以在训练过程中自动的从数据中学习到合适的权重参数。

从感知机到神经网络

下面我们主要介绍一下神经网络的组成，如下图，是一个典型的神经网络结构，0层：输入层；1层：中间层（隐藏层）；2层：输出层。该网络由3层神经元构成，但只有2层神经元有权重（即输入层与中间层），因此称其为“2层网络”。（有的也称3层，自己理解即可）

我们再来回顾一下，上一篇文章中的感知机如下左图，感知机接收两个输入信号x1,x2，然后输出y。输入层加上偏置b的话则形式如下面右图。

上述加上偏置b的数学表达式如下：

其中，b被称之为偏置，用于控制神经元被激活的难易程度，加入b值越大，则输入信号的越难大于0，即越不容易被激活（即将y值变为1）；w1,w2表示各个信号的权重参数。

我们引入函数h(x)将上述公式简化如下：（即将（b + w1x1 + w2x2）看做一个整体）

输入信号会被函数h(x)转换，转换后的值就是输出y。这里的函数h(x)即为神经网络中的激活函数，下面对激活函数进行介绍。

激活函数

上述h(x)函数会将输入信号的总和转换为输出信息，这种函数称之为激活函数。

激活函数的作用在于决定如何来激活输入信号的总和。

信号加权和为节点a,节点a被激活函数h()转换成节点y。

a与y称为节点（神经元）。h()为激活函数。

激活函数是连接感知机和神经网络的桥梁。

一般而言，“朴素感知机”是指单层网络，指的是激活函数使用了阶跃函数 A 的模型。

“多层感知机”是指神经网络，即使用sigmoid 函数（后述）等平滑的激活函数的多层网络。

在神经网络中，激活函数主要有以下几种：

1.阶跃函数

阶跃函数是指一旦输入超过阈值，就切换输出的函数。上述感知机中使用的就是该种激活函数，一旦a大于0则，输出变为1.

上述感知机的阶跃函数图形如下，从图中可以看出该阶跃函数以0为界，输出从0切换为1（或从1切换为0），值呈阶梯式变化，因此称为阶跃函数。

实现代码：

2.sigmoid函数

Sigmoid函数的数学表达式如下：

e为自然常数（纳皮尔常数）2.7182……

函数图像如下所示：

实现代码：

sigmoid函数与阶跃函数对比

Sigmoid函数（右图）阶跃函数（左图）

范围（0，1）0或1

平滑性平滑突变

共同特征输入小时，输出接近0（为0）；

随着输入增大，输出向1靠近（变成1）；

两者均为非线性函数，（线性函数为一条笔直线）

注意：神经网络的激活函数必须使用非线性函数。这是为什么呢？原因如下：

线性函数的问题在于，不管如何加深层数，总是存在与之等效的“无隐藏层的神经网络”。举例：我们考虑把线性函数 h(x) = cx 作为激活函数，把y(x) = h(h(h(x)))的运算对应3层神经网络 A。这个运算会进行y(x) = c × c × c × x的乘法运算，但是同样的处理可以由y(x) = ax（注意，a = c3）这一次乘法运算（即没有隐藏层的神经网络）来表示。如本例所示，使用线性函数时，无法发挥多层网络带来的优势。因此，为了发挥叠加层所带来的优势，激活函数必须使用非线性函数。