(由于之前做毕设时候没接触AdaBoost算法,而且个人精力有限,所以本文只做了一个简介和调用sklearn模块,具体算法还请参阅其他文档)
一、AdaBoost简介
AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,是一种机器学习方法,由Yoav Freund和Robert Schapire提出。AdaBoost方法的自适应在于:前一个分类器分错的样本会被用来训练下一个分类器。AdaBoost方法对于噪声数据和异常数据很敏感。但在一些问题中,AdaBoost方法相对于大多数其它学习算法而言,不会很容易出现过拟合现象。AdaBoost方法中使用的分类器可能很弱(比如出现很大错误率),但只要它的分类效果比随机好一点(比如两类问题分类错误率略小于0.5),就能够改善最终得到的模型。而错误率高于随机分类器的弱分类器也是有用的,因为在最终得到的多个分类器的线性组合中,可以给它们赋予负系数,同样也能提升分类效果。(摘自维基百科)
AdaBoost算法的一般步骤:
- 给定训练样本集S,其中X和Y分别对应于正例样本和负例样本;T为训练的最大循环次数;
- 初始化样本权重为1/n ,即为训练样本的初始概率分布;
- 第一次迭代:
- 训练样本的概率分布相当,训练弱分类器;
- 计算弱分类器的错误率;
- 选取合适阈值,使得误差最小;
- 更新样本权重;
- 经T次循环后,得到T个弱分类器,按更新的权重叠加,最终得到的强分类器。
AdaBoost算法的优缺点:
- 优点
- Adaboost是一种精度很高的分类器,泛化错误率低;
- 可以使用各种方法构建子分类器,Adaboost算法提供的是框架 ;
- 当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单 ;
- 简单,不用做特征筛选;
- 不用担心overfitting(过度拟合);
- 缺点
- 容易受到噪声干扰,这也是大部分算法的缺点;
- 训练时间过长;
- 执行效果依赖于弱分类器的选择。
二、基于sklearn模块实现AdaBoost
(代码参考AdaBoost分类器的官方文档)
# 调用AdaBoost分类器
from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
# 创建数据
# X是1000行四列的二维numpy.ndarray数据
# y是1000行1列的numpy.ndarray数据
X, y = make_classification(n_samples=1000, n_features=4,
n_informative=2, n_redundant=0,
random_state=0, shuffle=False)
# 创建AdaBoost分类器模型
# n_estimators参数指的是弱学习器的最大迭代次数
clf = AdaBoostClassifier(n_estimators=100, random_state=0)
clf.fit(X, y)
# feature_importances指的是特征重要性,即模型中最重要的特征
print(clf.feature_importances_ )
print(clf.predict([[0, 0, 0, 0]]))
# 打印拟合分数
print(clf.score(X, y))
网友评论