在算法介绍中我们提到,本文所采用的AdaBoost 算法采用的是单层决策树作为
弱分类器,其关键问题之一在于弱分类器数量的选择。弱分类器的叠加效果决定
最终强分类器的分类能力,但是,随着弱分类数量的增加,分类效果是否还会继
续提高,甚至造成过拟合,这个问题值得关注。另外,即使样本内训练数据分类
效果提高,样本外的预测效果是否会随之提高,也是一个重要的衡量指标。图
1 是根据2016 年7 月1 日及之前总共50 周的全A 股周度数据作为训练集合,
以2016 年7 月8 日相对于2016 年7 月1 日的全A 股一周收益率作为预测数据
的测试结果。图中蓝色线段为训练集合的预测成功率随弱分类器数量增加的走势,
开始阶段分类器样本内的预测成功率为56.3%左右,随着弱分类器数量的增加,
预测成功率逐渐提高到58.1%左右,并在使用75 个弱分类器叠加之后稳定在
58.1%,因此,继续提高弱分类器的数量,训练成功率并没有增加。而图中绿色
线段为测试序列的预测成功率随弱分类器数量变化的走势,初始阶段预测成功率
随弱分类器数量增加呈现较为明显的震荡变化,但是在弱分类器数量达到300
之后成功率稳定在56.3%。由于开始阶段预测具有相对较大的不确定性,本文
在建模过程中选择300 个弱分类器作为AdaBoost 算法弱分类器个数。另外,以
证券研究报告
请务必阅读正文后免责条款部分 7
逻辑回归为参照物,其样本内训练序列预测成功率为57.87%,样本外预测成功
率为56.6%,对比可以看到,AdaBoost 算法虽然在样本内预测成功率略高,但
是,样本外的表现并不能超越逻辑回归算法。其它类型的Boosting 方法,如
Gradient Boosting 等甚至可以将样本内预测成功率随弱分类器的数量增加提高
到100%,但是,样本外的预测能力却没有实质性提高,本文不再具体分析该类
算法,但值得注意的是机器学习类算法很容易造成过拟合问题,需要在实际操作
中检查其可信度。

米筐量化交易平台:http://www.ricequant.com
量化炒股QQ群:484490463 群内大神每日在线讲解代码,用Python自动赚钱!
网友评论