E{1/m(x1+x2+...+xn)] = E(X)
var{1/m(x1+x2+...+xn)} = 1/mVar(X)
如果均值为E(x),方差过大说明欠拟合,只要做无数次,能保证均值(无偏),方差减小
总结
低Bias表示离圆心近
高Bias表示里圆心远
高var表示学习结果分散
低var表示学习结果集中
Bias越低模型越复杂,可以理解为在训练集上的表现与训练值很接近,容易过拟合
variance是在测试集上的表现反之要提高泛化能力,就要降低variance,这样模型就会简单,容易欠拟合
因此,我们想要找到低bias(可以想成是残差很小)和高variance(稳定,泛化能力高)的交叉点就是总误差最小
Bagging能够减少训练方差(variance),对于不剪枝的决策树、神经网络学习器有良好的集成效果,增加稳定性
Boosting能减少偏差(Bias),能够基于泛化能力较弱的学习器构造强学习器,提高正确率
---原因
1. 变量少
2. 特征多
3. 函数过于复杂
处理方法:
1. 降维
2.正则化
除了GBDT中使用关于分类器的一阶导数进行学习之外,也可以借鉴(逆)牛顿的思路使用二阶导数学习弱分类器,比如XGboost
网友评论