美文网首页深度学习之目标检测
通过角点定位和场景分割的多朝向场景文本检测

通过角点定位和场景分割的多朝向场景文本检测

作者: FelixFang | 来源:发表于2018-04-29 08:40 被阅读98次

    通过角点定位和场景分割的多朝向场景文本检测

    论文主要思想

    通过定位文本边框的角点和相对位置的文本区域分割

    网络

    网络架构

    Net.png

    特征提取

    1. 使用全卷积网络来提取特征、角点检测、位置敏感分割
    2. 模型的主干是预训练的VGG16
    3. 引入了FPN/DSSD的主干来提取特征

    特征提取细节

    1. 将VGG16的fc6和fc7分别转换为卷积层conv6和conv7
    2. 额外的卷积层(conv8 conv9 conv10 conv11)叠于conv7上方来增大特征提取的感受野
    3. 一些DSSD提取的反卷积模块被用天top-down路径中
    4. 为了更好的检测不同大小的文本,使用从conv11到conv3 256通道的反卷积模块(conv10 9 8 7 4 conv3的特征被重复使用)
    5. 一共内置6个反卷积模块
    6. 通过conv11和反卷积模块有更丰富的特征表示,被用来检测角点和预测poistion-sensitive maps

    角点检测

    1. 类似SSD和DSSD,用默认框检测角点
    2. 每一个默认框输出分类得分和偏移,对应于4种类型的角点
    3. 采用以一种卷积的方式用两个分支来预测得分和偏移
    4. 卷积fiters都设置为256
    5. 每个cell有k个default boxes
    6. "score"分支和"offset"分支分别为每一个默认框的每种类型角点输出2个分数和4个偏移(2是指在这个位置是否存在一个角点)

    Position-Sensitive 分割

    1. 对于文本边框R,一个g*g的网格被用来将边框分成不同的bins
    2. 对于每个bin,一个segmentation map被用来决定map中的这个像素是不是属于这个bin
    3. 重新使用了F3 F4 F7 F8 F9的特征,他们上面建一些卷积模块,遵循角本检测分支的残余模块
    4. 这些块被resize为F3大小,然后用1 2 4 8 16的scale factor.同一尺寸的的输出被加在一起产生更丰富的特征
    5. 最后position-sensitive分割图有g*g通道,大小跟输入图一样大,g默认为2

    损失函数

    lconf.png lloc.png llseq.png Loss.png

    相关文章

      网友评论

        本文标题:通过角点定位和场景分割的多朝向场景文本检测

        本文链接:https://www.haomeiwen.com/subject/pflolftx.html