线性回归:

参数:[n,1]
X:[n,m]
y:[m,1]
m为样本数

误差ε独立同分布,服从均值为0,方差为某定值σ^2的高斯分布。随机现象可以看作众多因素的独立影响的综合反应,往往近似服从正太分布。

其极大似然函数:

由于该函数是累乘的,所以取对数转化为加法。

我们的目标是求其极大似然函数的最大值,根据以上公式转化为求

的极小值,从而推导出最小二乘法。

对其求梯度:

求解出参数:

通过上述方法可快速求出参数的解,前提是

可逆。如果其不可逆可以加入扰动因子使其可逆(同时可以防止过拟合):

注:上述梯度计算涉及的矩阵求导知识

为目标函数增加复杂度惩罚因子(抑制过拟合)
L1-norm

L2-norm

本质假定参数服从高斯分布。
梯度下降算法求解参数


m为样本数,n为参数的个数
写成向量的形式:

梯度下降方法:
1.批量梯度下降(每次更新使用所有样本),该方法可收敛至全局最小值(更新速率不能太大),目标函数必须是凸函数。但是当样本数量较大时,计算较慢。
2.随机梯度下降(每次更新使用一个样本),该方法计算速度快,但是较难收敛到极小值,收敛至极小值附近,可跳出局部极小值,适合在线学习。
3.mini-batch梯度下降(每次更新选取固定数量的样本的平均梯度)
LogisticRegression(用于解决分类问题)


其Sigmoid函数图像为:

与线性回归不同,它将输出值压缩在[0,1]作为概率输出。
Sigmoid函数求导:

Logistic回归参数估计

乘性公式取对数转化为加性公式,则其对数似然函数:

其对数似然函数就是我们的loss函数
对其求导得:

网友评论