
在实际中我们是无法找到一条完美线性模型取拟合所以的样本点,我们总是近视找到一条线性模型来拟合所有点。
现在我们哪一个实例说明,我们有这些样数据每一个样本有两个特征分别是
然后标签 y 也就是真实值为 y 我么用矩阵形式表示
矩阵每一行表示样本,前两列为样本的特征而最后一列为样本真实值 y,好这是我们样本我们就是要找到一条直线可以拟合这些样本点。
下面我们用方程形式描述问题.
我们容易看出这个方程组是无解,也就说明我们没有办法找到一条直线拟合这些点。
我们用矩阵来表示这个问题,
然后我们用两个向量来表示这个方程 a1 和 a2 分别是两个向量 x1 和 x2 是对于向量缩放,然后将这些向量线性组合后表示 Y 向量。
我们之前知道我们需要通过对着 a1 和 a2 进行线性变换后通过线性组合来表示出 Y 向量,也就是在 a1 和 a2 构成的向量空间内找到 Y ,但是现在问题是 Y 向量并不在 a1 和 a2 所构成的向量。

在三维空间我们用x 和 y 轴表示 x1 和 x2 特征值而 z 轴表示 y 值,然后我们绘制出向量 a1 和 a2 用黄色向量表示,a1 和 a2 构成空间用浅黄色表示。y 值用绿色向量表示,我们发现 y 向量并没有在 a1 和 a2 构成向量空间内,那么我们要做的就是在a1 和 a2 构成向量空间内找到一条最接近 y 的直线(估计值)来拟合真实值,根据我们所学习真实这条直线应该是 y 向量在 a1 和 a2 构成向量空间的投影。好现在我们几何解释一些问题以及如何求解
用 e 表示 差值,也就是误差我们要减少的值。这里
就是 y 在a1 和 a2 构成向量空间的投影。我们在用几何方式推导
我们知道 e 垂直于 a1 和 a2 构成向量空间,那么 e 也就是垂直 a1 和 a2
好吧现在我们用几何重新推导出 theta 公式,这个比较清晰吧。
我们如何用概率方式来解释最小二乘,我们假设线性方程,也是他们之间会有误差这里用 表示出来,我们认为这个
可能是噪声,而且服从正态分布

这里均值 为 0 方差 这样正态分布,我们这样解释就是为了将最小二乘和最大似然统一起来看这个问题。
最大似然问题
我们在机器学习中总是现有了一组数据然后,然后取求参数来拟合这些数据。当然
也是给定条件。然后我们认为这些数据是服从正态分布参数分别是
那么现在我们就将 替换为
,也就是我们观察到这些数据的联合概率
这里假设 间是相互独立的,所以可以写成连乘的形式,
现在也就是给定什么样 我们让他们乘积最大,这就是似然函数因为是小数所以乘积会越来越小。所以我们通过 log 将乘积转换为连加形式
这些数据连乘的形式而且每一个f 都是一个正态分布,所以我们极大似然函数就是在给定什么样 我想求上面函数最大。

我们在整条直线上分布同样参数正态分布位于每一个数据点上,在每一个 x 我们将其作为输入,输入概率密度函数得到自己估计,

网友评论