美文网首页工作生活
2019-07-01—Tesseract,Scrapy

2019-07-01—Tesseract,Scrapy

作者: ElfACCC | 来源:发表于2019-07-02 09:55 被阅读0次

    验证码识别

    安装:参考https://blog.csdn.net/weixin_43849588/article/details/89922327


    image.png

    遇到的问题:环境变量配置好了后,输入tesseract没反应。。。这时重启一下powershell就好了。


    image.png

    可以直接识别英文,中文要指定


    image.png
    import pytesseract
    from PIL import Image
    
    pytesseract.pytesseract.tesseract_cmd = r"D:/Tesseract-OCR/tesseract.exe"
    image = Image.open('04.jpg')
    text = pytesseract.image_to_string(image,lang='chi_sim')
    print(text)
    
    image.png

    pip install scrapy和pip install pypiwin32

    pip install pypiwin32报错:
    ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, please update the hashes.
    因为网速太慢了,再试几次
    pip install scrapy报错:
    install for Twisted ... error
    ERROR: Command "'c:\users\asus\appdata\local\programs\python\python36\python.exe' -u -c 'import setuptools, tokenize;__file__='"'"'C:\\Users\\ASUS\\AppData\\Local\\Temp\\pip-install-eo8g5wdm\\twisted\\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(__file__);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' install --record 'C:\Users\ASUS\AppData\Local\Temp\pip-record-s4l52cbr\install-record.txt' --single-version-externally-managed --compile" failed with error code 1 in C:\Users\ASUS\AppData\Local\Temp\pip-install-eo8g5wdm\twisted\
    因为没有装twisted,要找对应python版本的twist下载,放到python安装目录的Scripts 目录下
    网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    但是这个很慢。。
    我传到了网盘:Twisted-19.2.1-cp36、37、38—64位的
    链接:https://pan.baidu.com/s/1kn59Wsrv3OHllgSEYu2svg
    提取码:j7dg
    复制这段内容后打开百度网盘手机App,操作更方便哦
    然后再pip install 这个whl(要么到这个路径下,要么写上绝对路径\文件名)安装这个
    之后再pip install scrapy就能成功了

    image.png

    爬取糗事百科

    image.png
    image.png
    image.png
    优化: image.png
    image.png
    转化成字典 image.png
    image.png
    image.png
    image.png
    另一种:数据量多的时候 image.png
    image.png
    image.png

    相关文章

      网友评论

        本文标题:2019-07-01—Tesseract,Scrapy

        本文链接:https://www.haomeiwen.com/subject/xaobcctx.html