因为是回归,所以多元线性回归预测的是连续值。
First of all,多元线性回归假设事件(可以理解为每一个特征)服从高斯分布,也就是正态分布
为什么呢?因为我们要总结的事件是相互独立的,那么这里的每个事件肯定都是一个随机事件,也叫随机变量.所以我们要归纳的每个事件的发生概率都符合高斯分布。
其实到这里也就解释了,为什么线性回归出了要求数据线性相关,还要特征相互独立。
高斯分布的概率密度函数还是高斯分布.公式如下:

公式中为实际值,为预测值.在多元线性回归中,就是实际的,就是
如果将中的每个带入这个公式,得到如下函数

求得所有的时间发生概率最大就是求得所有的事件概率密度函数结果的乘积最大,则得到:

求得最大时W的值,则总结出了所有事件符合的规律.求解过程如下(这里记住,我们求得的是什么情况下函数的值最大,并不是求得函数的解):

公式中,m为样本的个数,π和σ为常数,不影响表达式的大小.所以去掉所有的常数项得到公式:

因为得到的公式是一个常数减去这个公式,所以求得概率密度函数的最大值就是求得这个公式的最小值.这个公式是一个数的平方,在我国数学资料中把他叫做最小二乘公式.所以多元线性回归的本质就是最小二乘.
到这里,多元线性回归的推导过程就结束了,后边会继续写如何求解多元线性回归.有哪里写的不清楚请大家留言.看到一定会回复的.
网友评论