Dropout方法总结:在前向传播算法和反向传播算法训练模型时,每轮梯度下降迭代时,它需要将训练数据分成若干批,然后分批进行迭代,一批数据迭代时,随机的从全连接网络中去掉一部分隐藏层的神经单元,并用去掉隐藏层的神经元的网络来拟合我们的训练数据,去迭代更新W,b,每批数据迭代更新完毕后,要将稀疏后的模型回复成原始模型。
这和Bagging的正则化很不同,dropout模型中的W.b是一套,共享的。所有的稀疏模型,比如Dnn,迭代时,更新的是同一组W,b。而Bagging正则化时每个Dnn模型有自己独有的一套W,b参数,相互之间是独立的,当然他们每次都是使用分批的数据集进行训练的
网友评论