Python验证码(Pytesseract)

作者: 卜俊文 | 来源:发表于2017-03-06 15:44 被阅读283次

    一、描述

    </br>
    在爬虫的过程中,可能会遇到验证码,这时候就需要进行解析了,我在实验中也是遇到了很多的问题,终于是解决了,在此流程分享出来。
    </br>

    二、验证码流程

    </br>

    Pytesseract地址:pytesseract

    </br>

    第一步:在命令行打入以下代码,下载到本地
    pip install pytesseract   
    

    </br>

    第二部:安装tesseract-ocr(官方文档上也有说需要安装,就默认安装了)

    http://download.csdn.net/download/whatday/7740469

    </br>

    第三步:在代码中加入以下代码,实验验证码
    test.png
    try:
        import Image
    except ImportError:
        from PIL import Image
    import pytesseract
    print pytesseract.image_to_string(Image.open("test.png").convert('L')) #Convert能够优化识别
    

    输出结果

    378m
    
    

    三、验证码注意事项

    </br>

    一,正常流程执行,遇到下面的问题

    </br>
    ![]@ST6}P]S)KK9.png](http:https://img.haomeiwen.com/i2650372/af96906eba87201f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
    解决方法是找到你pytesseract的目录下,我的目录是下面的(如果找不到,可以再pip install pytesseract,会看到你安装的地址),打开pytesseract.py

    修改成tesseract-ocr安装目录下的tesseract.exe,并且在路径前面加一个r,查了好久才发现需要加一个r,不然总是报错

     tesseract_cmd = 'tesseract'
    

    tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
    

    </br>

    四、总结

    希望有人也遇到这个问题,可以解决

    相关文章

      网友评论

      • b98022150eb7:多谢啦
      • NeilPy:这个库识别的验证码准确率高吗
        卜俊文:@NeilPy 我感觉不怎么高,可能是我没配置好吧,英文很容易识别成数字额
      • 秋意浓_49e9:3Q,我的问题一样

      本文标题:Python验证码(Pytesseract)

      本文链接:https://www.haomeiwen.com/subject/mpkugttx.html