NLP中常用的集成学习方法

作者: 骆旺达 | 来源:发表于2021-03-30 11:46 被阅读0次

NLP中常用的集成学习方法
集成学习
Task5 模型集成
CV-模型集成
集成学习方法
Task05: 模型集成
Datawhale 零基础入门CV赛事-Task5 模型集成
随机森林：这或许是集成学习中最经典的一个 Bagging 算法了
集成学习原理总结
AdaBoost模型

1、Bagging方法

bagging方法采用的是一种个体学习器之间不存在强依赖关系、可同时生成的并行式结果的集成学习方法。

bagging方法主要基于自助采样法(bootstrap sampling)，也叫有放回重采样法.
即给定包含m个样本的数据集，先随机从样本中取出一个样本放入采样集中，再把该样本返回初始数据集，使得下次采样时该样本仍可以被选中，这样，经过m次随机采样操作，就可以得到包含m个样本的采样集，初始数据集中有的样本多次出现，有的则未出现，其中，初始训练集中约有63.2%的样本出现在采样集中。

照上面的方式进行T次操作，采样出T个含有m个训练集的采样集（即有T组训练集），然后基于每个采样集训练出T个基学习器（每个训练集对呀一个基学习器），再将这些基学习器进行结合（投票或者平均），即可得到集成学习器。

在对输出进行预测时，Bagging通常对分类进行简单投票法，对回归使用简单平均法。若出现形同，则任选其一。

bagging方法

2、stacking方法

stacking方法

首先把整个数据集分成量训练集(Training Data)和测试集(Test Data)两部分。
上图最左边，然后把训练数据集进行k折，此处k=5，即把训练数据分成5份，在进行第j折时，使用其余的四份进行初级学习器的训练，得到一个初级学习器。并用该初始学习器把该折(即留下用来验证的)数据进行预测，进行完所有折数，把预测输出作为新数据集的特征，即次级学习器的训练数据集，其中标记没变，用该新数据集训练次级学习器，从而得到一个完整的stacking。
最后用原始数据的测试集来对该Stacking进行测试评估。