neural network 笔记

作者: 小乙集 | 来源:发表于2016-09-22 16:59 被阅读0次

【ML】Machine Learning Models
论文阅读笔记
neural network 笔记
Lecture 3 RvNN
机器学习：9.3 NAS algorithms
[机器学习入门] 李宏毅机器学习笔记-33 (Recurrent
[机器学习入门] 李宏毅机器学习笔记-34 (Recurrent
[机器学习入门] 李宏毅机器学习笔记-32 (Recurrent
机器学习技法笔记：12 Neural Network
[机器学习入门] 李宏毅机器学习笔记-11（Convolutio

一个模仿人体大脑神经信号处理的算法模型，理念很简单，但是其中还是有些点会有点纠结。

1. gradian descent 梯度下降。需要使用在连续可导的函数。对于梯度下降的理解，花了很多的时间，最后通过一篇博客中描述了，导数（一元函数求导，得到结果小于零则在这个方向上函数值是减小趋势，否则是上升趋势），偏导（多元在一个方向上求导），方向导数（多元在多个方向上求导），得到梯度就是多元在多个方向上求出哪个方向上有最大的变化率。

梯度即函数在某一点最大的方向导数，函数延梯度方向有最大的变化率。

既然理解了梯度，那么梯度下降会比较清晰。因为梯度代表函数最大的变化率，那么为了减小函数值，要采取负梯度方向，这样函数值延方向下降最快，优化目标。

这篇blog的地址是：http://m.blog.csdn.net/article/details?id=50978864

2. error backpropagation BP。假设使用的是sigmoid unit。建立在gradian descent基础之上。其目标就是要最小化training set中的累积误差。那么gradian descent确实比较适合。

根据机器学习教材，bp又有标准和累积之分，标准bp是针对单个样例不停迭代，中间可能出现抵消效果，但在训练集非常大时效果比累积bp好。累积bp是直接针对累积误差最小化，读取整个训练集以后对参数进行更新，更新频率低。

bp容易overfitting，一般会有early stopping和regularization。early stopping很基本，就是验证集，当验证集误差增大，则停止训练。regularization则是在误差中加入阈值平方和与一个0-1之间的参数乘积。

3. 局部最小和全局最小。如何跳出局部最小而得到全部最小。

根据机器学习教材，

（1）多组初始值初始化多个神经网络，得倒的值很有可能有全局最小。🤔🤔但是要多少组呢？会不会消耗资源很大？

（2）simulated annealing。以一定概率接受比当前解更差的结果，从而在某个点的到全局最小。但有可能跳出全局最小呢。

（3）随机梯度下降。加入随机因子，在局部最小时也不为零从而跳出。🤔

（4）遗传算法。🤔