梯度下降法后知后觉

作者: mugtmag | 来源:发表于2016-08-10 21:23 被阅读34次

2020-08-19--梯度下降法01
梯度下降法
学习笔记：两种梯度下降法的思考
最速梯度下降
神经网络优化2
2019-03-17神经网络——optimizer
2019-11-01第二课二周优化算法
机器学习系列（十六）——随机梯度下降Stochastic Gra
全梯度下降算法从零实现，基于Numpy
机器学习学习笔记（六）梯度下降法

y值没有对应的y0、y1....

Paste_Image.png

Paste_Image.png

我对利用梯度下降法theta进行更新的理解：如果用向量进行表示的话应该是theta = theta - alpha/m((Xtheta - y)'X)' （1）
theta = [theta0;theta1;...]
X也是训练数据矩阵，y是结果矩阵

Paste_Image.png 可以表示为(Xtheta - y)
即得到mx1矩阵；
而后下图红框中的值表示成向量的话就，即X（：，1），这个表示对应的m个x0值、X（：，2），这个表示对应的m个x1值、X（：，3），这个表示对应的m个x2值 ,这三个矩阵都是mx1的矩阵，而 (Xtheta - y)'X（：，1）相当于

Paste_Image.png 最终得到的是一个数值。
注意：matlab中矩阵下标是从1开始的，那么theta0 、theta1、theta2同时更新的话,即可表示为矩阵theta的更新，如上式（1）所示，各个theta值的更新是通过迭代次数不同而不断发生变化，直至达到设定好的迭代次数或者 J 的值达到某一小的程度。