1.从数据反推公式
假设获得下面一张表格,列举了美国纽约若干程序员职位的年薪。
根据表格中的特征,我们把Experience与Salary抽取出来,用x和y来分别指代它们。
我们可以先在二维坐标系里通过画图来看一下x与y的关系:
把这6个点连起来,基本上就成了一条直线。那么假设存在,是合理的。
既然认为和
满足线性相关关系,那么线性函数:
,就是我们的模型函数。其中
也可以用
来表示。
我们要做的是综合利用所有的训练数据求出中常数
和常数
的值。
2.线性回归的目标函数
综合利用的原则就是我们要求的这个和
,在将训练样本的x逐个带入后,得出的预测年薪
与真实年薪
整体的差异最小。
具体的一个样本的和
的差异用
来表示。
怎么衡量这个整体差距呢?我们用下面这个公式,我们把它叫做为Cost Function,形式如下(其中为样本的个数,在本例中
为6):
在这个模型函数中,
和
是常量参数,
是自变量,而
是因变量。
但到了中,
和
是常量参数(也就是
个样本各自的
和
值),而
和
成了自变量,
是因变量。能够让因变量
取值最小的自变量
和
,就是最好的
和
。
我们要做的就是找到最好的和
。
3.线性的定义
线性回归模型是:利用线性函数对一个活多个自变量(或
)和因变量(
)之间的关系进行拟合的模型。
也就是说,线性回归模型构建成功后,这个模型表现为线性函数的形式。
线性函数的定义是:一阶(或更低阶)多项式,或零多项式。
当线性函数只有一个自变量时,。
的函数形式是:
——一阶多项式
或者
——零阶多项式
或者
——零多项式
但如果有多个独立自变量,的函数形式则是:
换言之,直角坐标系中,除了平行于轴的那些直线之外,所有的直线都可以对应一个一维特征(自变量)的线性回归模型(一元多项式函数)。
但如果样本特征本身是多维的,则最终的线性模型函数是一个多维空间内的[一阶|零阶|零]多项式。
总结:特征是一维的,线性模型在二维空间构成一条直线;特征是二维的,线性模型在三维空间中构成一个平面;若特征是三维的,则最终模型在四维空间中构成一个体,以此类推。
4.用线性回归模型拟合非线性关系
在输入特征只有一个的情况下,是不是只能在二维空间拟合直线呢?其实也不一定。
线性模型并非完全不可能拟合自变量和因变量之间的非线性关系。
比如有一个样本,只有一个特征,我们把特征和结果作图以后发现,是下图这样的:
上图样本和结果的关系走势根本不是直线,更像是二阶曲线。
这个时候,我们完全可以把特征从一个“变成”两个:
设
,有:
这就相当于拟合了一条二阶多项式对应的曲线。
再设
,则:
这样一来,我们只需要在二维向量空间里训练,就可以了。
当然,这种操作也不限于在一维到二维之间的转换,一维也可以转为三维、四维、n维;或者原本的k维也可以每一维都求平方后作为新特征引入,转为2k维,如此种种......依需要而取就好。
网友评论