美文网首页
caffe 训练时一直停在iteration=0

caffe 训练时一直停在iteration=0

作者: 涂山容容 | 来源:发表于2018-01-20 22:32 被阅读0次

昨天用python训练caffe model,发现他一直就停在iteration这里,然后就不动了,查看了一下GPU的使用情况,变成了 no processing running。就觉得很诡异。


开始觉得可能是有人用了服务器,把我给挤掉了,但是发现,也没有在跑的程序啊。就重新开始运行,发现,卧槽,还是一直停在那里。查了一下,https://stackoverflow.com/questions/43035440/caffe-stuck-at-iteration-0
说有可能是数据问题,然后看了一下,不对啊,自己的数据之前用的好好的啊,遂跑了一下之前跑过的程序,也卡在了这里,但是显存还占用着。
想着测试的时候可以,但是就是不能训练,该不会和自己前几天装了NCCL有关吧,毕竟自己这个老版本的caffe并没有merge multi-GPU,但是自己添加了好多东西,所以是新编译了一个最新版本的caffe,莫非调用的时候冲突了?觉得这个思路很有道理,嗯,然后就把他卸了,之前make install 装上的,就想着make unnistall吧,结果没有这个命令,想哭。就直接make clean了,然后开始重新编译caffe。然后还是不行,想着估计make clean 没软用,就把他生成的.so .h 文件全删了(在usr/local/lib usr/local/include里面),还是没用,想着,该不会是没有ldconfig吧。又ldconfig了一遍。还是没有软用,好生气。折腾了一个晚上加白天,没有软用。要被气哭了。然后想了一下,卧槽,python接口不能用,我就看看c++的可以用不,结果报了Error: (unix time) try if you are using GNU date,心塞塞,感觉要跪了,但是觉得很奇怪啊,不应该啊。然后就试了一下提供的mnist的example,发现卧槽,这个sh文件竟然能跑,卧槽,难不成就因为我image data layer,然后里面shuffle 了? 看到有说是这个原因的,就把shuffle给注释了,还是无果。生气。感觉没救了。然后打算重启容器,结果发现,卧槽,那个网页拒绝访问了,找了一下管理服务器的师弟,人家说最近师兄又更新了一次,给了另一个网址。然后登,发现我的帐号不存在!!!师弟说他也不知道为什么,要找那个师兄,已经厚着脸皮找师弟了,不想再去找师兄啊喂,最后只好厚着脸皮让师弟手动重启了我的容器。发现,问题还是存在。gg了,难道又要重开容器了么~感觉那个师弟已经不想搭理我了喂,一个蹭别人老师服务器的还那么多事情,让我哭一会。
后来,咬咬牙,看了一下自己的代码,卧槽卧槽,自己竟然把stepsize给注释了,卧槽卧槽,这他妈的肯定要中断的啊,程序不死就怪了。然后,为什么之前的程序也stuck 在 iteration 0 这里,就是跑的慢而已,所以一直没打印其他内容。
所以这两天的各种折腾都是白白折腾。
给自己的粗心坑哭了,没想到自己能这么蠢。
有一个忘了的注释引发的血案。
写下此篇来告诫自己,以后不要那么蠢了!!!

相关文章

网友评论

      本文标题:caffe 训练时一直停在iteration=0

      本文链接:https://www.haomeiwen.com/subject/taqxaxtx.html