常用的最优化理论和方法
BFGS拟牛顿法的基础上,进一步绕过海塞逆矩阵的存储;L-BFGS,在BFGS的基础上,采取一些进一步的近似措施,...[作者空间]
// TODO[作者空间]
// TODO Q1:为什么牛顿法用二阶导数信息可以得到更优的方向? XGBoost中也用到二阶导数 Q2:牛顿法...[作者空间]
由于批量梯度下降法在更新每一个参数时,都需要所有的训练样本,所以训练过程会随着样本数量的加大而变得异常的缓慢。随机...[作者空间]