MSER — 自然场景文本检测

作者: 素娜93 | 来源:发表于2017-07-30 21:19 被阅读1238次

    MSER是最大稳定极值区域:是对一幅灰度图像(灰度值为0~255)取阈值进行二值化处理,阈值从0到255依次递增。阈值的递增类似于分水岭算法中的水面的上升,随着水面的上升,有一些较矮的丘陵会被淹没,如果从天空往下看,则大地分为陆地和水域两个部分,这类似于二值图像。在得到的所有二值图像中,图像中的某些连通区域变化很小,甚至没有变化,则该区域就被称为最大稳定极值区域。具体算法的原理参考http://blog.csdn.net/zhaocj/article/details/40742191
    此刻正在听张学友的歌,所以想到先做一个测试吧:

    2017世界巡回演唱会西安站.jpeg MSER多用于自然场景的文本检测的前期阶段,产生尽可能多的proposals,首先回顾一下在调用这个函数过程中踩过的坑:
    1、不知道如何修改MSER中的参数,如灰度值的变化量,检测到的组块面积的范围以及最大的变化率,只能使用默认参数如下:
    mser = cv2.MSER_create()
    

    最后发现了http://bytedeco.org/javacpp-presets/opencv/apidocs/org/bytedeco/javacpp/opencv_features2d.MSER.html#create-int-int-int-double-double-int-double-double-int-,发现可以酱紫根据自己的图像修改参数:

    mser = cv2.MSER_create(_delta=2, _min_area=200, _max_variation=0.7)
    
    mser参数.jpeg

    2、下图是调用mser后用polylines绘制轮廓的结果:

    cv2.polylines(imgContours, hulls, 1, (255, 0, 0))
    
    mser检测结果.jpeg

    那如果想要得到外接矩形怎么办?求助万能的百度,给出的解决方案如下:http://www.cnblogs.com/jkmiao/p/6797252.html

    mser = cv2.MSER_create()
    regions, boxes = mser.detectRegions(gray)
    for box in boxes:
         x, y, w, h = box
         cv2.rectangle(img, (x, y), (x + w, y + h), (255, 0, 0), 2)
    cv2.imshow("img2", vis)
    

    然而并不能解决问题,在调用mser.detectRegions返回两个函数的时候会报,http://answers.opencv.org/question/139636/want-to-get-area-from-mser-operator/这个帖子也出现了类似的错误:

    contours, boxes = mser.detectRegions(imgThreshCopy)
    Error:
    TypeError: Required argument 'bboxes' (pos 2) not found
    

    受到findcontours绘制外界矩形的启发,因此我尝试了第二种解决方案:

    for c in hulls:
         x, y, w, h = cv2.boundingRect(c)
         cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 0, 0), 1)
    

    至此完美的解决问题,下面是得到的结果图:

    矩形框绘制结果.jpeg 3、但是从图中可以看到很多重叠框,可以在这里加上NMS, 筛选一部分矩形框,推荐这两篇博客,写的很详细,给出了demo,地址:1、http://www.pyimagesearch.com/2014/11/17/non-maximum-suppression-object-detection-python/,2、http://blog.csdn.net/pandav5/article/details/50997272。 因为在NMS过程中用的数据类型是numpy.ndarry, 所以执着的我在http://www.jianshu.com/p/f8e6a0a6399f中对于list和numpy.ndarry的区别扒了一下:
    最后贴上完整的代码和运行结果:
    #coding:utf-8
    import numpy as np
    import cv2
    import nms
    img = cv2.imread('3447976_0.jpg')
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    vis = img.copy()
    orig = img.copy()
    mser = cv2.MSER_create()
    regions = mser.detectRegions(gray, None)
    hulls = [cv2.convexHull(p.reshape(-1, 1, 2)) for p in regions]
    cv2.polylines(img, hulls, 1, (0, 255, 0))
    cv2.imshow('img', img)
    keep = []
    for c in hulls:
        x, y, w, h = cv2.boundingRect(c)
        keep.append([x, y, x + w, y + h])
        cv2.rectangle(vis, (x, y), (x + w, y + h), (255, 255, 0), 1)            
    print "[x] %d initial bounding boxes" % (len(keep))
    cv2.imshow("hulls", vis)
    keep2=np.array(keep)
    pick = nms.nms(keep2, 0.5)
    print "[x] after applying non-maximum, %d bounding boxes" % (len(pick))
    # loop over the picked bounding boxes and draw them
    for (startX, startY, endX, endY) in pick:
        cv2.rectangle(orig, (startX, startY), (endX, endY), (255, 0, 0), 1)
    cv2.imshow("After NMS", orig)
    cv2.waitKey(0)
    cv2.destroyAllWindows()
    
    运行结果: WechatIMG21.jpeg
    [x] 1795 initial bounding boxes
    [x] after applying non-maximum, 130 bounding boxes
    

    可以看到应用NMS之前检测到的矩形框是1795个,应用NMS后矩形框的数量减少到了130个,这张图只是拿来做测试用,并没有调整自己的参数,用了默认值。效果还不错吧!

    相关文章

      网友评论

        本文标题:MSER — 自然场景文本检测

        本文链接:https://www.haomeiwen.com/subject/jysklxtx.html