用笔一步步演示人工神经网络的反向传播算法——Jinkey 翻译

作者: JinkeyAI | 来源:发表于2017-01-23 22:34 被阅读1661次

用笔一步步演示人工神经网络的反向传播算法——Jinkey 翻译
神经网络之反向传播（BP）算法代码实现
浅层学习和深度学习概念&区别
反向传播算法推导-卷积神经网络
2反向传播
TensorFlow从0到1 - 11 - 74行Python实
CNN反向传播推倒
机器学习基础之反向传播
读懂反向传播算法（bp算法）
姓名：于倩学号：21011210116学院：通信工程学院

背景

反向传播训练（Backpropagation）一个神经网络是一种常见的方法。网上并不缺少介绍反向传播是如何工作的论文。但很少包括一个用实际数字的例子。这篇文章是我试图解释它是如何工作的和一个具体的例子, 大家可以对比自己的计算,以确保他们正确理解反向传播。

Python 实现反向传播算法

您可以到 Github 尝试我写的一个反向传播算法Python脚本。

反向传播算法可视化

一个交互式可视化显示神经网络学习过程, 可以看看我的神经网络可视化网站。

额外的资源

果你发现本教程有用,想继续学习神经网络及其应用,我强烈推荐看看Adrian Rosebrock的优秀教程Getting Started with Deep Learning and Python

概述

对于本教程,我们将使用一个有 2 个输入神经元、2 个隐藏的神经元和 2 个输出神经元的神经网络。此外,隐藏层和输出层将包括一个偏差神经元（Bias）。
这里的基本结构:

（3）

联立（1）（2）（3）得

$\delta_{o1} = -(target_{o1} - out_{o1}) * out_{o1}(1 - out_{o1})$
$\frac{\partial E_{total}}{\partial w_{5}} = \delta_{o1} out_{h1}$

为了减少误差，我们从当前权重减去这个值（学习率可自定义，这里我们设置为0.5）：

$w_5^{ } = w_5 - \eta * \frac{\partial E_{total}}{\partial w_{5}} = 0.4 - 0.5 * 0.082167041 = 0.35891648$

重复这个过程，我们可以得到权重 ω6, ω7, 和 ω8：

$w_6^{ } = 0.408666186$
$w_7^{ } = 0.511301270$
$w_8^{ } = 0.561370121$

我们在得到新的隐藏层神经元的输入权重之后再更新 ω6, ω7, 和 ω8（也就是说，在进行反向传播的时候我们使用旧的权重值）

隐藏层

接下来,我们将继续向后传播，计算新值ω1, ω2, ω3, 和 ω4。
全局来说，我们需要计算

$\frac{\partial E_{total}}{\partial w_{1}} = \frac{\partial E_{total}}{\partial out_{h1}} * \frac{\partial out_{h1}}{\partial net_{h1}} * \frac{\partial net_{h1}}{\partial w_{1}}$
可视化：

我们要用类似计算输出层那样的过程,但略有不同的是：每个隐层神经元的输出会对多个输出神经元的输出和误差产生印象。我们知道out_h1将同时影响out_o1和out_o2（为方便表示，这里用下划线表示下标，下同）。因此 $\frac{\partial E_{total}}{\partial out_{h1}}$ 需要同时考虑out_h1对每个输出神经元的影响： $\frac{\partial E_{total}}{\partial out_{h1}} = \frac{\partial E_{o1}}{\partial out_{h1}} \frac{\partial E_{o2}}{\partial out_{h1}}$ 先从 $\frac{\partial E_{o1}}{\partial out_{h1}}$

开始：

$\frac{\partial E_{o1}}{\partial out_{h1}} = \frac{\partial E_{o1}}{\partial net_{o1}} * \frac{\partial net_{o1}}{\partial out_{h1}}$
我们之前计算过 $\frac{\partial E_{o1}}{\partial net_{o1}}$ ： $\frac{\partial E_{o1}}{\partial out_{h1}} = \frac{\partial E_{o1}}{\partial net_{o1}} * \frac{\partial net_{o1}}{\partial out_{h1}}$

然后

$\frac{\partial net_{o1}}{\partial out_{h1}}$ = ω5，因为：
$net_{o1} = w_5 * out_{h1} w_6 * out_{h2} b_2 * 1$
$\frac{\partial net_{o1}}{\partial out_{h1}} = w_5 = 0.40$ 讲两者代入 $\frac{\partial E_{o1}}{\partial out_{h1}}$

得：

$\frac{\partial E_{o1}}{\partial out_{h1}} = \frac{\partial E_{o1}}{\partial net_{o1}} * \frac{\partial net_{o1}}{\partial out_{h1}} = 0.138498562 * 0.40 = 0.055399425$

同理得：

$\frac{\partial E_{o2}}{\partial out_{h1}} = -0.019049119$

因此，

$\frac{\partial E_{total}}{\partial out_{h1}} = \frac{\partial E_{o1}}{\partial out_{h1}} \frac{\partial E_{o2}}{\partial out_{h1}} = 0.055399425 -0.019049119 = 0.036350306$ 现在我们计算好了 $\frac{\partial E_{total}}{\partial out_{h1}}$

。

然后我们计算 $\frac{\partial out_{h1}}{\partial net_{h1}}$

：

$out_{h1} = \frac{1}{1 e^{-net_{h1}}}$
$\frac{\partial out_{h1}}{\partial net_{h1}} = out_{h1}(1 - out_{h1}) = 0.59326999(1 - 0.59326999 ) = 0.241300709$

接下来我们计算h1的总输入对ω1求偏导数：

$net_{h1} = w_1 * i_1 w_2 * i_2 b_1 * 1$
$\frac{\partial net_{h1}}{\partial w_1} = i_1 = 0.05$

综上所述，

$\frac{\partial E_{total}}{\partial w_{1}} = \frac{\partial E_{total}}{\partial out_{h1}} * \frac{\partial out_{h1}}{\partial net_{h1}} * \frac{\partial net_{h1}}{\partial w_{1}}$
$\frac{\partial E_{total}}{\partial w_{1}} = 0.036350306 * 0.241300709 * 0.05 = 0.000438568$

你也可以这么写

$\frac{\partial E_{total}}{\partial w_{1}} = (\sum\limits_{o}{\frac{\partial E_{total}}{\partial out_{o}} * \frac{\partial out_{o}}{\partial net_{o}} * \frac{\partial net_{o}}{\partial out_{h1}}}) * \frac{\partial out_{h1}}{\partial net_{h1}} * \frac{\partial net_{h1}}{\partial w_{1}}$
$\frac{\partial E_{total}}{\partial w_{1}} = (\sum\limits_{o}{\delta_{o} * w_{ho}}) * out_{h1}(1 - out_{h1}) * i_{1}$
$\frac{\partial E_{total}}{\partial w_{1}} = \delta_{h1}i_{1}$

现在我们可以更新ω1了：

$w_1^{ } = w_1 - \eta * \frac{\partial E_{total}}{\partial w_{1}} = 0.15 - 0.5 * 0.000438568 = 0.149780716$

重复该过程计算 ω1, ω2, 和 ω3：

$w_2^{ } = 0.19956143$
$w_3^{ } = 0.24975114$
$w_4^{ } = 0.29950229$

最后,我们已经更新所有的权重! 我们最初提出 0.05 和 0.1 的输入,网络上的误差为 0.298371109 。第一轮反向传播之后,现在总误差降至 0.291027924 。它可能看起来没有调整太多。但是在这个过程重复 10000 次之后，比如说，误差降到0.000035085。在这一时刻，当我们输入0.05和0.1时，两个输出神经元分别输出0.015912196 ( vs 预期 0.01) and 0.984065734 (vs 预期 0.99) 。

如果你做到这一步，发现任何错误或者能想到更通俗易懂的说明方法，请加我公众号 jinkey-love 交流。

英文原文链接

用笔一步步演示人工神经网络的反向传播算法——Jinkey 翻译
背景反向传播训练（Backpropagation）一个神经网络是一种常见的方法。网上并不缺少介绍反向传播是如何工...
神经网络之反向传播（BP）算法代码实现
反向传播算法实战本次的反向传播算法是基于上篇文章神经网络之反向传播算法（BP）详细公式推导实现的，如果对反向传播...
浅层学习和深度学习概念&区别
浅层学习由于人工神经网络的反向传播算法（也叫Back Propagation算法或者BP算法）的发明，给机器学习带...
反向传播算法推导-卷积神经网络
在SIGAI之前的公众号文章“反向传播算法推导-全连接神经网络”中，我们推导了全连接神经网络的反向传播算法。其核心...
2反向传播
正向传播算法要初始化赋值，反向传播算法更新权重w。参考文档：一文弄懂神经网络中的反向传播法
TensorFlow从0到1 - 11 - 74行Python实
TensorFlow从0到1系列回顾到目前为止，我们已经研究了梯度下降算法、人工神经网络以及反向传播算法，他们各...
CNN反向传播推倒
Refence 刘建平博士卷积神经网络(CNN)反向传播算法
机器学习基础之反向传播
机器学习基础二-反向传播神经网络之所以可以训练，得益于与Hinton在1986年提出的反向传播算法。反向传播背后...
读懂反向传播算法（bp算法）
bp算法介绍反向传播算法可以说是神经网络最基础也是最重要的知识点。基本上所以的优化算法都是在反向传播算出梯度之...
姓名：于倩学号：21011210116学院：通信工程学院
BP神经网络是前馈神经网络的一种，是指用反向传播算法（BP算法）进行训练的多层前馈神经网络，它包括信号的前向传播和...