美文网首页
识别验证码!用这个神器,简直不要太容易!

识别验证码!用这个神器,简直不要太容易!

作者: 919b0c54458f | 来源:发表于2019-01-27 10:28 被阅读13次

    下载安装

    下载地址: https://digi.bib.uni-mannheim...

    下载完成后,双击安装,可以勾选

    Additional language data(download) 选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从

    https://github.com/tesseract-... 下载zip的语言包压缩文件,解压后将 tessdata-master

    中的文件复制到 Tesseract 的安装目录 C:Program Files (x86)Tesseract-OCR essdata

    目录下,最后我们配置下环境变量,我们将 C:Program Files (x86)Tesseract-OCR

    添加到环境变量中。进入命令提示符,输入 tesseract ,显示下图结果,说明配置完成

    查看安装了的语言包: tesseract --list-langs

    显示我一共安装了167种语言包,里边包含英文或者其他字符。

    测试

    实验用的二维码

    基本使用语法

    tesseract image.png result (tesseract 图片名称 生成文件名称)

    结果

    进群:960410445 即可获取数十套PDF!

    由结果来看,识别出来了P、2和X,但是把C识别成了G,识别度还是比较高,接下来看在python中的使用

    python引入tesseract

    在python下使用pip命令即可完成下载安装 pip install pytesseract

    识别验证码脚本

    import pytesseract

    from PIL import Image

    im=Image.open('pin.png')

    print(pytesseract.image_to_string(im))

    结果

    这样识别的结果同样跟上文一样,个别字符识别的不是很准确

    图像处理

    现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化

    import pytesseract

    from PIL import Image

    im=Image.open('5.jpg')

    #进行置灰处理

    im=im.convert('L')

    #这个是二值化阈值

    threshold=150

    table=[]

    for i in range(256):

    if i

    table.append(0)

    else:

    table.append(1)

    #通过表格转换成二进制图片,1的作用是白色,0就是黑色

    im=im.point(table,"1")

    im.show()

    print(pytesseract.image_to_string(im))

    原图

    置灰和二值化后

    想要提高识别率只能下载训练好的语言包,如上述所说,或者用深度学习的方法训练机器

    相关文章

      网友评论

          本文标题:识别验证码!用这个神器,简直不要太容易!

          本文链接:https://www.haomeiwen.com/subject/ldjgjqtx.html