Andrew Ng ML(2)——linear regressi

作者: tmax | 来源:发表于2018-12-05 08:30 被阅读0次

Andrew Ng ML(2)——linear regressi
Linear Regression线性回归
Andrew Ng ML学习总结
ML学习建议(Andrew Ng)
ML.Andrew Ng 4.24
sklearn logistic regression
AI数学基础16——训练/验证/测试集
Andrew Ng ML(1)——basic knowledge
ML. Andrew Ng. 4.28 Ⅱ
Andrew Ng ML(3)——Logistic回归

linear regressing with multiple variables(supervised learning)

m: numbers of training examples
n:numbers of features
x^(i): input (features) of $i^{th}$ example
$x_j^{(i)}$ : values of feature j in $i^{th}$ traing example
e.g.
example $x^{(2)}=\begin{bmatrix} 1416\\ 3\\ 2\\ 40\\ \end{bmatrix}$ ， $x_3^{(2)}$ =2
Hypothesis: $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+...+\theta_nx_n$ (for convenience，define $x_0=1$ ,means $x_0^{(i)}=1$ )
$X= \begin{bmatrix} x_0\\ x_1\\ ...\\ xn \end{bmatrix}$ ， $\theta=\begin{bmatrix} \theta_0\\ \theta_1\\ ...\\ \theta_n \end{bmatrix}$ ， $h_\theta(x)=\theta^TX$

梯度下降（多变量）

Hypothesis: $h_\theta(x)=\theta^TX=h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$
Parameters: $\theta_0,\theta_1,\theta_2...\theta_n$ (n+1维向量 $\theta$ )
Cost function: $J(\theta_0,\theta_1,\theta_2...\theta_n)=J(\theta)=\frac {1} {2m}\sum_1^m (h_{\theta}(x^{(i)})-y^{(i)})^2$

单特征值与多特征值的梯度下降公式（特征值：variable\feature\n）

Gradient descent in practice I
- Feature Scaling(特征收缩)

在两个或者多个特征值范围差距太大时，cost function的等高线图会呈现出细长的椭圆形，会导致梯度下降缓慢(可以做一定的处理，使多个特征值范围限制在同一个范围内)

对于特征值范围的选择，不一定要限制在-1~1之间，但是范围不能太大或者太小

Mean normalization(归一化处理)

$x_i \leftarrow \frac{x_i-\mu_i}{s_i}$ ， $\mu_i$ 代表第 $i$ 个特征值的平均值， $s_i$ 代表第 $i$ 个特征变量的标准差或 $max-min$

Gradient descent in practice II(about $\alpha$ )

确定梯度下降正常工作的方法：1:画出cost function的值与对应迭代次数的函数图像，观察是否收敛(通常使用的方法) 2.确定一个 $\varepsilon$ 的值，自动收敛测试

确定梯度下降正常工作的方法

所取的alpha(学习率)太大可能出现的情况

summary

if $\alpha$ too small: slow convergence
if $\alpha$ too large: cost function $J(\theta)$ may not decrease on every iteration,may not converge(slow converge also possible)
To choose $\alpha$ ,try $...,0.001,0.003,0.01,0.03,0.1,0.3,1...$

特征选择
如：在使用房屋的临街长度和深度预测房价时，可以定义一个新的特征——面积
polynomial regression (多项式回归)
根据所给出的数据集的特征，用不同的多项式模型拟合数据
e.g.：

对于上图
1、用三次模型拟合
$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3$
$x_1=(size)$ ， $x_2=(size)^2$ ， $x_3=(size)^3$
P.S. 注意特征值缩放!
2、用平方根模型拟合
$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2$
$x_1=(size)$ ， $x_2=\sqrt{size}$

正规方程—— $\theta$ 最优解的另一种解法（即使特征范围差距很大也不需要特征缩放）

对theta 求偏微分，即能求得最优解 e.g.:

Q: $\theta=(X^TX)^{-1}X^Ty$ 是如何求出来的？？？

$X\theta=y$ （其中 $X_{m \times(n+1)}，\theta_{(n+1)\times 1}，y_{m\times 1}$ ）
由于X并不是方阵，也就没有逆矩阵，所以首先需要两边同乘 $X^T$
即： $X^TX\theta=X^Ty$ （其中 $X^TX$ 为方阵）
易得， $\theta=(X^TX)^{-1}X^Ty$

Q: $(X^TX)$ 不可逆怎么办？？？

1.检查特征之间是否线性相关 2.检查是否特征太多（样本太少）或者使用正规化

总结

梯度下降和正规化优缺点以及选择

梯度下降的向量计算方式

Andrew Ng ML(2)——linear regressi
linear regressing with multiple variables(supervised lear...
Linear Regression线性回归
Welcome To My Blog Linear Regression 线性回归(Linear Regressi...
Andrew Ng ML学习总结
概述断断续续，一个月的时间，把吴老师的机器学习视频教程看完，收获很多，从一无所知到概念的理解、公式的推导、算法的探...
ML学习建议(Andrew Ng)
贴上吴恩达的建议（渣译）来自Bilibili机器学习视频148楼NewConstance用户在社交媒体上关注那些...
ML.Andrew Ng 4.24
机器学习定义近代的定义如下：一个计算机程序叫做机器学习，如果它从任务T的经验E中学习，该程序依赖某种指标P.并且...
sklearn logistic regression
sklearn.linear_model.LogisticRegression Logistic Regressi...
AI数学基础16——训练/验证/测试集
参考文献：Andrew Ng《Setting up your ML application》应用型机器学习，是一...
Andrew Ng ML(1)——basic knowledge
introduction supervised learning(with labels)regressingcl...
ML. Andrew Ng. 4.28 Ⅱ
Andrew会花很多时间来教授案例，这样的好处是往往能够避免我们去走别人已经走过的弯路，以便于我们开发机器学习系统...
Andrew Ng ML(3)——Logistic回归
Logistic回归（）——分类算法 (Logistic function/sigmoid function)由图...

Andrew Ng ML(2)——linear regressi

linear regressing with multiple variables(supervised learning)

梯度下降（多变量）

Gradient descent in practice I

Feature Scaling(特征收缩)

Mean normalization(归一化处理)

Gradient descent in practice II(about $\alpha$ )

summary

正规方程—— $\theta$ 最优解的另一种解法（即使特征范围差距`很大`也`不需要`特征缩放）

Q: $\theta=(X^TX)^{-1}X^Ty$ 是如何求出来的？？？

Q: $(X^TX)$ 不可逆怎么办？？？

总结

梯度下降的向量计算方式

相关文章