《神经网络和深度学习》笔记
第一章
权重:相应输入对于输出重要性的实数
偏置:让神经元输出1有多容易的估算
1. 感知器
线性神经元,σ(Z)=Z 和与非门类似,输出只有0或1
image.png
2. S型神经元
非线性神经元 逻辑神经元
3. 神经网络架构
image.png最左边 输入层 其中的神经元为输入神经元;最右边 输出层、输出神经元。中间层,称为隐藏层
上一层的输出作为下一层的输入叫前馈神经网络,信息总是向前传播,从不反向回馈。
还有递归神经网络,其中的神经元在休眠前会有一段有限的时间内保持激活状态。这种激活状态可以刺激其他神经元,使其随后被激活并同样保持一段有限的时间。这样会导致更多的神经元被激活,随着时间的推移,我们得到一个级联的神经元激活系统,因为一个神经元的输出只在一段时间后而不是即刻影响他的输入,在这个模型中回路并不会引起问题。
4.梯度下降
(1)代价函数
w表示左右的网络中权重的集合,b是所有的偏置,n是训练输入数据的个数,a是表示当输入为x时输出的向量,求和在总的训练输入x上进行。||v|| 表示向量v的模。训练算法的目的是最小化关于权重和偏置的代价函数C(w,b)。
(2)梯度下降
image.png
我们想要找到C的全局最小值。想象一个小球从山谷的斜坡滚下来。精确一下,在v1和v2方向分别将球体移动一个很小的量,即Δv1和Δv2时
image.png
寻找一种选择Δv1和Δv2的方法,使ΔC为负,即让小球滚落,定义 image.png
定义C的梯度为偏导数的向量
image.png
则
ΔC方程.png
取
(10).png
η为一个很小的正数(称为学习速率)带入ΔC方程中得 image.png 这可以保证ΔC≤0,按照这个(方程10)规则去改变V,C就会一直减小,不会增加。用方程10来计算ΔV,来移动球的位置v:
11.png
假设我们努力改变Δv来让C尽可能减小,相当于最小化
image.png
限制步长为小的固定值,即 image.png
当步长固定时,我们要找到使得C减小最大的下降方向。根据柯西-施瓦兹不等式,
image.png
用C的梯度向量的相应的分量来写梯度下降的更新规则,
梯度下降更新规则
回顾二次代价函数 image.png
即,它是遍及每个训练样本代价 image.png
的品均值,在实践中,为了计算C的梯度,我们要为每个训练输入x单独的计算梯度值
image.png
这样训练的数据过大,很花费时间,使学习变得相当缓慢。
网友评论