1. 过拟合的问题(The problem of overfitting)
正则化可以减轻过拟合问题。
欠拟合(underfitting)
高偏差(high bias)
过拟合(overfitting)
高方差(high variance)
泛化(generalize):指假设模型能应用到新样本的能力。
-
特征太多,数据量太少,过度拟合就会发生:
image.png
解决过度拟合方法:
1.减少特征数量:
手动选择
使用模型选择算法(后面会讲)
-
正则化(regularization)
当我们有很多特征的时候依然工作很好,并且每个特征都对预测y有一定的贡献 image.png
保留所有的特征,但是减少参数θj的大小(magnitude/values)
2. 代价函数(Cost function)
-
正则化思想:减小高次项的θ值,使得曲线平滑。
image.png -
加入正则项。λ是正则化参数,保持我们能很好的拟合数据,保持参数较小从而避免过拟合。
image.png
image.png
λ不能太大,否则就是一条直线,(underfitting/too high bias),肯定也不能太小,否则就没效果了。
image.png
3. 正则化线性回归(Regularization linear regression)
梯度下降(gradient decent)算法下正则化线性回归的计算:
θ0不参与,所以排除在外。
相当于把θj缩小了。
image.png
-
在正规方程(normal equation)中正则化线性回归的计算:
image.png -
加入正则化项后,只要 λ>0 那么该矩阵可逆。
image.png
4 正则化逻辑回归(Regularization logistic regression)
-
原理相同,加入正则化项,然后计算:
image.png
image.png
网友评论