这里注意 ,在高学习率的情况下0.1 我们需要batch_size足够大,不然的话变动会很大。
本文标题:torch 中多参数用SGD优化办法,以及学习率,batch
本文链接:https://www.haomeiwen.com/subject/xvnsfctx.html
网友评论