美文网首页
DataWhale-CV-task01赛题理解

DataWhale-CV-task01赛题理解

作者: smashell | 来源:发表于2020-05-20 18:03 被阅读0次

    0、环境准备

    注:本环境基于windows 10

    运行环境要求:Python2/3,Pytorch1.x,内存4G,有无GPU都可以

    • 安装anaconda

    在官网下载相应的安装包直接安装即可,我这里使用的python3.7版本的64位安装包

    • conda设置国内源
      安装好anaconda后,在开始菜单启动Anaconda Powershell Prompt(anaconda),输入如下命令设置国内源:
    conda config --add channels http://mirror.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
    conda config --add channels http://mirror.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
    conda config --set show_channel_urls yes
    

    如果需要,可以增加第三方conda源:

    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ 
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/ 
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/ 
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/ 
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
    

    然后查看修改是否生效:

    conda info
    
    • 创建虚拟环境
    conda create -n py37_torch131 python=3.7
    
    • 激活环境
    conda activate py37_torch131
    
    • 安装pytorch
      打开pytorch官网,选择自己对应的安装选项,就可以生成安装命令:
      生成安装pytorch命令
      然后,执行生成的安装命令就可以了。注意:需要将命令中的-c选型删除,否则,下载安装包的时候没有走国内源:
    conda install pytorch torchvision cudatoolkit=10.2 pytorch
    

    其中,CUDA的版本可以通过如下方式查看:

    1. win键+s打开nvidia control pannel
    2. 在打开的窗口菜单选择帮助-》系统信息
    3. 选择组件tab,就可以看到CUDA的版本
      cuda版本
    • 启动jupyter Notebook或者jupyterLab
      启动anaconda navigator,Application on切换到py37_torch131,在下面的Jupyter Notebook上点击Launch,如果显示install就先点击安装。
      启动jupyter

    1、背景

    计算机视觉实践
    赛题以计算机视觉中字符识别为背景,要求选手预测真实场景下的字符识别,这是一个典型的字符识别问题。通过这道赛题可以引导大家走入计算机视觉的世界,主要针对竞赛选手上手视觉赛题,提高对数据建模能力。

    2、训练数据

    2.1 数据

    赛题以街道字符为赛题数据,该数据来自收集的SVHN街道字符,并进行了匿名采样处理。

    image

    2.2 数据标签

    字符的坐标具体如下:


    字符坐标.png

    在比赛数据(训练集和验证集)中,同一张图片中可能包括一个或者多个字符,因此在比赛数据的JSON标注中,会有两个字符的边框信息:

    原始图片 JSON标注
    原始图片.png 原始图片标注.png

    2.3 数据集大小

    • 训练集:3W张照片
    • 验证集:1W张照片
    • 测试集:
      • A:4W张照片
      • B:4W张照片

    3、评测指标

    终评测指标结果越大越好,具体计算公式如下:
    Score=编码识别正确的数量 / 测试集图片数量

    4、解题思路

    4.1 简单入门思路:定长字符识别

    将赛题抽象为一个定长字符识别问题,可以对于所有的图像都抽象为6个字符的识别问题,字符23填充为23XXXX,字符231填充为231XXX。如下图:

    23xxxxxx.png

    经过填充之后,原始的赛题可以简化了6个字符的分类问题

    4.2 专业字符识别思路:不定长字符识别

    本次赛题中给定的图像数据都比较规整,可以视为一个单词或者一个句子。比较典型的有CRNN字符识别模型。

    4.3 专业分类思路:检测再识别

    赛题数据中已经给出了训练集、验证集中所有图片中字符的位置,因此可以首先将字符的位置进行识别,利用物体检测的思路完成。可以参考物体检测模型SSD或者YOLO来完成。

    相关文章

      网友评论

          本文标题:DataWhale-CV-task01赛题理解

          本文链接:https://www.haomeiwen.com/subject/gvvnohtx.html