美文网首页
NLP中常用的集成学习方法

NLP中常用的集成学习方法

作者: 骆旺达 | 来源:发表于2021-03-30 11:46 被阅读0次

    1、Bagging方法

    bagging方法采用的是一种个体学习器之间不存在强依赖关系、可同时生成的并行式结果的集成学习方法。

    bagging方法主要 基于自助采样法(bootstrap sampling),也叫有放回重采样法.
    即给定包含m个样本的数据集,先随机从样本中取出一个样本放入采样集中,再把该样本返回初始数据集,使得下次采样时该样本仍可以被选中,这样,经过m次随机采样操作,就可以得到包含m个样本的采样集,初始数据集中有的样本多次出现,有的则未出现,其中,初始训练集中约有63.2%的样本出现在采样集中。

    照上面的方式进行T次操作,采样出T个含有m个训练集的采样集(即有T组训练集),然后基于每个采样集训练出T个基学习器(每个训练集对呀一个基学习器),再将这些基学习器进行结合(投票或者平均),即可得到集成学习器。

    在对输出进行预测时,Bagging通常对分类进行简单投票法,对回归使用简单平均法。若出现形同,则任选其一。

    bagging方法

    2、stacking方法

    stacking方法

    首先把整个数据集分成量训练集(Training Data)和测试集(Test Data)两部分。
    上图最左边,然后把训练数据集进行k折,此处k=5,即把训练数据分成5份,在进行第j折时,使用其余的四份进行初级学习器的训练,得到一个初级学习器。并用该初始学习器把该折(即留下用来验证的)数据进行预测,进行完所有折数,把预测输出作为新数据集的特征,即次级学习器的训练数据集,其中标记没变,用该新数据集训练次级学习器,从而得到一个完整的stacking。
    最后用原始数据的测试集来对该Stacking进行测试评估。

    相关文章

      网友评论

          本文标题:NLP中常用的集成学习方法

          本文链接:https://www.haomeiwen.com/subject/cyrihltx.html