首先假设一些变量
m 为训练数据样本,x为输入变量值也就特性,y为输出变量,也就是目标变量。(x,y)为一组数据。
反正最后公式就是这样... 怎么求导出来的我听了一节课也不明白... 可能还是要先补数学..
总之最后的代数表达式为:
tidudaishu.png
还有一种向量的更简单的表达式
tiduxiangliang.png
梯度下降概念
就是在初始化数据点求偏微分然后得出梯度下降最大点。
所以这里会涉及一个初始值选择和步长。
- 步长设置过小则收敛速度慢,过大则可能错过最优解。
- 初始值不同也有可能得到的是局部最优解而不是全部最优解。
梯度下降的算法调优也主要是步长与初始值设置了。还有一个就是输入特征归一化,这样更方便进行计算。
梯度下降有三种
-
批梯度下降算法
批就是针对全部样本的意思,数据量大的时候可能导致训练速度慢。 -
随机梯度下降算法
即在样本中随机选取J组样本。训练快,但是在数据样本大的时候,局部最优解浮动很大 不能快速收敛。 -
小批量梯度下降算法
结合了上述两种算法的优点。
网友评论