验证码识别
安装:参考https://blog.csdn.net/weixin_43849588/article/details/89922327
image.png
遇到的问题:环境变量配置好了后,输入tesseract没反应。。。这时重启一下powershell就好了。
image.png
可以直接识别英文,中文要指定
image.png
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"D:/Tesseract-OCR/tesseract.exe"
image = Image.open('04.jpg')
text = pytesseract.image_to_string(image,lang='chi_sim')
print(text)
image.png
pip install scrapy和pip install pypiwin32
pip install pypiwin32报错:
ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, please update the hashes.
因为网速太慢了,再试几次
pip install scrapy报错:
install for Twisted ... error
ERROR: Command "'c:\users\asus\appdata\local\programs\python\python36\python.exe' -u -c 'import setuptools, tokenize;__file__='"'"'C:\\Users\\ASUS\\AppData\\Local\\Temp\\pip-install-eo8g5wdm\\twisted\\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(__file__);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' install --record 'C:\Users\ASUS\AppData\Local\Temp\pip-record-s4l52cbr\install-record.txt' --single-version-externally-managed --compile" failed with error code 1 in C:\Users\ASUS\AppData\Local\Temp\pip-install-eo8g5wdm\twisted\
因为没有装twisted,要找对应python版本的twist下载,放到python安装目录的Scripts 目录下
网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
但是这个很慢。。
我传到了网盘:Twisted-19.2.1-cp36、37、38—64位的
链接:https://pan.baidu.com/s/1kn59Wsrv3OHllgSEYu2svg
提取码:j7dg
复制这段内容后打开百度网盘手机App,操作更方便哦
然后再pip install 这个whl(要么到这个路径下,要么写上绝对路径\文件名)安装这个
之后再pip install scrapy就能成功了
爬取糗事百科
image.pngimage.png
image.png
优化: image.png
image.png
转化成字典 image.png
image.png
image.png
image.png
另一种:数据量多的时候 image.png
image.png
image.png
网友评论