0、环境准备
注:本环境基于windows 10
运行环境要求:Python2/3,Pytorch1.x,内存4G,有无GPU都可以
- 安装anaconda
在官网下载相应的安装包直接安装即可,我这里使用的python3.7版本的64位安装包。
- conda设置国内源
安装好anaconda后,在开始菜单启动Anaconda Powershell Prompt(anaconda)
,输入如下命令设置国内源:
conda config --add channels http://mirror.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels http://mirror.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes
如果需要,可以增加第三方conda源:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
然后查看修改是否生效:
conda info
- 创建虚拟环境
conda create -n py37_torch131 python=3.7
- 激活环境
conda activate py37_torch131
- 安装pytorch
打开pytorch官网,选择自己对应的安装选项,就可以生成安装命令:
生成安装pytorch命令
然后,执行生成的安装命令就可以了。注意:需要将命令中的-c
选型删除,否则,下载安装包的时候没有走国内源:
conda install pytorch torchvision cudatoolkit=10.2 pytorch
其中,CUDA的版本可以通过如下方式查看:
- 按
win键+s
打开nvidia control pannel
- 在打开的窗口菜单选择
帮助-》系统信息
- 选择
组件
tab,就可以看到CUDA的版本
cuda版本
- 启动jupyter Notebook或者jupyterLab
启动anaconda navigator,Application on切换到py37_torch131
,在下面的Jupyter Notebook上点击Launch
,如果显示install
就先点击安装。
启动jupyter
1、背景
计算机视觉实践
赛题以计算机视觉中字符识别为背景,要求选手预测真实场景下的字符识别,这是一个典型的字符识别问题。通过这道赛题可以引导大家走入计算机视觉的世界,主要针对竞赛选手上手视觉赛题,提高对数据建模能力。
2、训练数据
2.1 数据
赛题以街道字符为赛题数据,该数据来自收集的SVHN街道字符,并进行了匿名采样处理。
2.2 数据标签
字符的坐标具体如下:
字符坐标.png
在比赛数据(训练集和验证集)中,同一张图片中可能包括一个或者多个字符,因此在比赛数据的JSON标注中,会有两个字符的边框信息:
原始图片 | JSON标注 |
---|---|
原始图片.png | 原始图片标注.png |
2.3 数据集大小
- 训练集:3W张照片
- 验证集:1W张照片
- 测试集:
- A:4W张照片
- B:4W张照片
3、评测指标
终评测指标结果越大越好,具体计算公式如下:
4、解题思路
4.1 简单入门思路:定长字符识别
将赛题抽象为一个定长字符识别问题,可以对于所有的图像都抽象为6个字符的识别问题,字符23填充为23XXXX,字符231填充为231XXX。如下图:
经过填充之后,原始的赛题可以简化了6个字符的分类问题。
4.2 专业字符识别思路:不定长字符识别
本次赛题中给定的图像数据都比较规整,可以视为一个单词或者一个句子。比较典型的有CRNN字符识别模型。
4.3 专业分类思路:检测再识别
赛题数据中已经给出了训练集、验证集中所有图片中字符的位置,因此可以首先将字符的位置进行识别,利用物体检测的思路完成。可以参考物体检测模型SSD或者YOLO来完成。
网友评论