线性回归模型
概述
给定数据集其中为样本的数量,为特征的数量。
线性模型试图学得一个通过属性的线性组合来进行预测的函数,即
其中为权重,为截距,写成向量形式为
为了简化公式,设,简化之后为
我们的目标便是通过给定的数据集来学习参数,对于给定的样本,其预测值,与真实值越接近越好。这里我们采用平方损失函数,则在训练集D上,模型的损失函数为
这样,我们的目标便变为损失函数最小化。为了之后求导方便,在损失函数前乘以,即:
为了求出使最小的值,我们可以使用梯度下降法和正规方程两种方法。
梯度下降法
梯度下降的思想是:开始时随机选择一个参数的组合,计算损失函数,然后寻找下一个能让损失函数下降最多的参数组合,持续这么做直到一个局部最小值。通常选择不同的初始参数组合,可能会找到不同的局部最小值。
梯度下降算法公式为:
重复直到收敛{
}
要实现这个算法,关键在于求出损失函数关于的导数
重复直到收敛{
(for every j)
}
正规方程
正规方程通过求解下面的方程来找出使损失函数最小的参数:
矩阵导数
假设函数,从大小的矩阵映射到实数域,那么当矩阵为时导函数定义如下所示:
例如A=是矩阵,给定函数为:
那么,我们还要引入矩阵的迹(trace),简写为。对于一个给定的的方阵,它的迹定义为对角线元素之和:
如果有两矩阵和,满足为方阵,则迹运算有以下性质:
接下来提出一些矩阵导数:
下面把损失函数用向量的形式表述。令
则有
令其等于便得到下面的正规方程:
当可逆时,可得:
于是学得的线性回归模型为:
网友评论