线性回归是非常古老的算法,现在在某些场合下也还是使用,譬如说数据量小,数据噪声小或者数据比较离散的情况下。理解线性方法对于理解非线性方法是很有帮助,因为很多非线性算法都是线性方法的一个泛化。另外,可以对输入做变换来拓展下线性方法的应用,也就是基函数。
线性回归模型可以表达成,其中
可能有多个来源:
- 量化的连续输入
- 连续输入的变换,如log, square-root
- 基扩展,
- 类别或者种类的dummy coding表示,例如,C是表示表示动物的种类,假如只有猫和狗两类,那么则可以创建两个变量,一个变量表示是猫,一个标量表示是狗。
- 变量之间的interaction, 例如
一般来说,我们有一批训练数据,从这些训练数据中估计出线性模型的参数
,估计出参数
之后,就可以在新数据上应用这个模型,根据
的值来预测y.
常用的估计方法是最小二乘法,也就是Least squares。
网友评论