美文网首页
DataWhale-计算机视觉实践(街景字符编码识别)--Tas

DataWhale-计算机视觉实践(街景字符编码识别)--Tas

作者: 神侃 | 来源:发表于2020-05-20 17:18 被阅读0次

目标: 赛题理解

实际达成目标:环境及baseline跑通(80%),baseline 代码理解(15%),赛题粗解 (5%)

遇到的问题及过程:

按图索骥(https://github.com/datawhalechina/team-learning/tree/master/03%20%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E5%AE%9E%E8%B7%B5%EF%BC%88%E8%A1%97%E6%99%AF%E5%AD%97%E7%AC%A6%E7%BC%96%E7%A0%81%E8%AF%86%E5%88%AB%EF%BC%89)

DataWhale 社区的文档,少见的精致和详细。但还是进坑了。

1. 用了 anaconda-navigator,看起来是 GUI 更方便了,但反而纠结了,装个 torch 折腾了半天,最后还是没有按照手册上的操作进行,用的 pytorch 官网上的方案。

2. 刚开始直接用的 github 上的 ipynb 文件,发现需要 CUDA,可怜的 mbp 是跑不动的,盲跑跑不起来,仔细看了代码里面有开关,于是赶紧关了,use_cuda=False。于是发现和手册上的代码不一样啊,于是开始一行行地 type。

3. 最大的坑,跑 baseline 代码,跑到训练的步骤 5 和测试的步骤 6,直接跑不出来,好几个小时都无动于衷,调低了epoch 为 1,依然很慢。

补充:环顾了下四周,真的不是我的慢,是都慢,我还是低估了CV 所需要的计算量和耗时。跑个把小时好像很正常。我还是太天真。

Epoch: 0, Train loss: 3.390355146408081 Val loss: 3.5582095518112182 0.3312

Epoch: 0, Runtime as: 1865(秒)

4. 对于赛题的理解,因为之前没有参与过 CV 的内容,看得赛题莫名其妙,但基本还是看懂了。通过图片和已标记的 json 数据,对于每个图片内的文字信息进行确认,难点在于同一个图里面有几个字符的情况,几种方式都是可以的,短补长的方式,不定长做单独识别的方式,先做识别再做单独识别的方式。逻辑不复杂,但对于如何实现一脸懵。

非常期待下面 task 的安排。

相关文章

网友评论

      本文标题:DataWhale-计算机视觉实践(街景字符编码识别)--Tas

      本文链接:https://www.haomeiwen.com/subject/nfzgohtx.html