以下错误也是不太好理解的,特别是对初学者,这是由于mxnet/gluon的特性导致的,参数在没有用来计算之前不会初始化,这也就是为什么,Dense这种预定义层可以做到不提供input shape就可以直接输入任何数据集,这也算个优势,虽然有时候会报错,但是掌握了还是很方便的,就如同C++的模板一样
mxnet.gluon.parameter.DeferredInitializationError: Parameter fixedgcforest0_cascadelayer1_randomforest0_fcmodel0_sequential0_dense0_weight has not been initialized yet because initialization was deferred. Actual initialization happens during the first forward pass. Please pass one batch of data through the network before accessing Parameters. You can also avoid deferred initialization by specifying in_units, num_features, etc., for network layers.
Trainer
Trainer类在在new时一般会将一个model调用collect_params的结果传入,这个函数其实是通过_children列表递归地收集一个model中的所有param,得到一个大的ParameterDict对象,相当于一个参数列表,而每次调用step,trainer其实是会遍历这个列表并对所有的param进行优化操作,即将param的data设置为data-grad*lambda,而这时候,如果有一个参数没有初始化,即从来都没用到过(从一开始就没参与计算),则trainer就会报告说有某个参数没有初始化,意思就是没初始化就不能改变值,因为内存空间都没开呢
解决
解决这个问题很简单,就是在用一个batch对整个模型过一遍,不一定是要调用forward函数,要知道gluon本质上只是对ndarray和symbol接口的封装,没有像keras那样的各种狗屁要求(抒发一下不满),其model的计算过程其实就是symbol或ndarray的计算过程,一般科研中我们都会用ndarray,这样好调试,那么就当是用ndarray了
比如可以写个继承于Block的抽象类,其中添加一个通用的用于进行参数初始化的计算函数,这个计算函数会把output_shape的ndarray传到其child block中的相同函数里,这是个递归过程,直到所有param都被过了一遍,当然这个计算函数只是用于表达:要初始化参数了。本身没有任何作用,然后在一个模型定义好后就调用一次这个函数
甚至可以考虑继承Trainer一次,在step函数上包一层,自动调用这个函数
当然还可以考虑改写那个抛出错误的地方,让它忽略这个错误,如果没初始化就不处理,但是我是直接用把某些特殊模型里加的处理函数让其提前被过一遍,毕竟这种特殊模型也不多
网友评论