先说结论:每天压力都很大,以及自己很菜。
1.看论文要有表格,比较performance要有标准的matric
2.dataset要理解,数据类型,数据大小,数据label情况,coarse还是fine grad
3.看论文一定要思考细节,特别是计算细节,channel每一个vector每一个element weight情况这种
4.初看一个领域多看survey和related work,了解领域大致情况,调研完自己就是这个领域的王者,别人问什么都要知道。
5.想自己的idea,不能只做别人给的。
6.ablation study也很重要,paper里每一个地方都很重要,不理解的地方一定要多想想。不然就会被diss
7.要有整体规划,哪些时pipeline,哪些idea先做,哪些idea后做,做任何工作都要带有目的性,不然就会浪费时间做无谓的实验....以及磨刀不误砍柴工,先了解清楚各个细节,再去写代码
8.实现代码时若不知道最好的思路先想有没有类似的论文,他们是怎么实现的,例如计算similarity matrix,看non local weight matrix实现方式。
- 跑完实验,结果不好,首先自己可视化特征图,结果图,是哪里除了问题,然后再和大家一起讨论
1.loss输出日志重定向 2 > &1 teeog.txt
2.nohup &
3.screen
4.paddle clcoud hadoop集群
5.模型pre-train weight记得找
6.模型相对路径../很有用
7.代码数据分开打包上传集群
8.环境也可用别人的包
9.source只能在命令行使用,不能在脚本里使用
10.ls -lht
11.mv == rename
12.记住模型保存在了哪,免得训练完了没法scp模型(可以scp,也可以在代码立提前写save到output文件里)
13.sftp
14.跳板机多跳才安全
15.用几个卡取决于你的bz大小,所以还是要熟悉code
16.hadoop资源调度时会杀死gpu利用率不高的进程
17.没有全局pip,python -m pip install
18.本地代码上传远程服务器github有可视化脚本(需现在服务器ip上创建端口)
19.不用分屏是sb
20.python命令行传递参数 --
21.文件要规范,减少重复操作,多用.sh
22.既然卡多那就多做并行实验,batchsize设大点
23.torch.set_printoptions(profile="full")
24.torch.repeat(8,1,1),torch.permute
25.torch.stack(channel维)
27.ls -lht
28.出现nan,若有log,可能是log内出现负数
29.tensorboard vision函数可视化特征图
tensorboard --logdir runs.
out1 = model.features1(data[0:1,:,:,:])
out2 = model.features(out1)
grid1 = make_grid(out1.view(-1,1,out1.shape[2],out1.shape[3]), nrow=8)
30.print(','.join(map(str, sorted(a.keys()))))
31.打印中间特征,forward返回,直接打印灰度图,hutter
32.打印loss,内部打印才能观察到抖动
简单总结,未完待续。
网友评论