第二周 - Multivariate Linear Regres

作者: sakura_na | 来源:发表于2019-05-05 22:25 被阅读0次

4个特征量
m表示训练集记录条数；
n表示特征量的数量；
x⁽ⁱ⁾表示第i条训练数据；
x_j⁽ⁱ⁾表示第i条训练数据的第j个特征量；

多元线性回归的假设函数
h_θ(x) = θ₀ + θ₁x₁ + θ₂x₂ + θ₃x₃ + ⋯ + θ_nx_n
引入变量x₀=1，假设函数可写为：
h_θ(x) = θ₀x₀ + θ₁x₁ + θ₂x₂ + θ₃x₃ + ⋯ + θ_nx_n

利用矩阵乘法的定义，我们的多元假设函数可以简洁地表示为：

θ向量的转置向量乘以 x向量

多元线性回归的梯度下降公式

公式展开形式

公司简洁形式
一元线性回归和多元线性回归的梯度下降公式实际上是一个公式。

一元线性回归和多元线性回归的梯度下降公式

如果多个特征量的数据范围差别较大，比如房屋面积为500 ~ 2000，卧室数量为2 ~ 5，那么梯度下降时会导致计算性能下降，此时就需要将特征值统一缩放到-1 ~ 1或-0.5 ~ 0.5。
一般使用2种技术，一种是特征缩放，一种是均值归一化(mean normalization)。

特征缩放公式没有特定的公式，一般只要将特征值缩放到-3 ~ 3范围内就可以接受。特征缩放的结果不要求太精确。

均值归一化公式：

均值归一化
μ_i为x_i的均值；
s_i为max(x_i) - min(x_i)，称为标准差。
均值归一化的计算结果在-0.5和+0.5之间。

选择正确的α，代价函数逐渐收敛

学习速率过大，导致发散或波动

选择合适的特征会使学习算法更加有效。多个相关特征可以考虑合并为一个特征，比如房屋的长和宽，可以相乘合并为面积。

如果训练样本不是线性分布，我们可以通过将假设函数变成二次函数、三次函数或平方根函数(或任何其他形式)来改变其行为或曲线。

二次函数会下降，所以这里使用平方根函数更合适

需要记住的一件重要事情是，如果您以这种方式选择特性，那么特性伸缩就变得非常重要。因为平方、三次方、平方根会使特征值相差太大。

网友评论

本文标题：第二周 - Multivariate Linear Regres

本文链接：https://www.haomeiwen.com/subject/qsekoqtx.html

第二周 - Multivariate Linear Regres