基于数据集多重抽样的分类器
- 将不同的分类器组合起来,这种组合结果成为元算法
bagging:基于数据随机重抽样的分类器构建方法
- 自举汇聚法,也称为bagging方法;从原始数据集选择S次后得到S个新数据集的一种技术(抽样又放回,所以数据集中会有重复)
- 将某算法分别作用于S个数据集建立S个分类器,然后分类,选择出现最多次数的预测结果作为最终预测结果
- 随机森林,是更先进的bagging方法,可以谷歌了解下
boosting
- boosting跟bagging类似,但不同的分类器是通过串行训练而获得的
- boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器
- boosting的分类器的权重不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度
- 这里谈的是最流行的版本,AdaBoost
训练算法: 基于错误提升分类器的性能
- 基于弱分类器和多个实例构造一个强分类器
- 训练数据中的每一个样本,开始赋予相等的权重值,构成向量D。第二次训练时,会对第一次分类错误的样本提高权重。计算出新的D后,继续下一轮迭代。
- 多次迭代后就出现了多个弱分类器
基于单层决策树构建弱分类器
- 基于单个特征的决策树就是个弱分类器
- 错误率达到要求或者弱分类器数量达到一定量就停止迭代
混淆矩阵
- 混淆矩阵
- 正确率:TP/(TP+FP)
- 召回率:TP/(TP+FN)
- 对于样本的非均衡问题的数据抽样方法:欠抽样(删除样例过多的样本)、过抽样(复制样例过少的样本)
网友评论