美文网首页
爬虫 之 验证码(一)

爬虫 之 验证码(一)

作者: 煎炼 | 来源:发表于2018-12-19 20:14 被阅读0次

验证码的是反爬虫策略之一,要如何解决验证码问题?

简单的验证码可以通过二值化的办法

我们以 http://my.cnki.net/elibregister/commonRegister.aspx 为例

1-1

首先需要配置环境,pip install pillow,pip install pytesseract

安装Tesseract-OCR    地址:https://digi.bib.uni-mannheim.de/tesseract/ 在这里找到对应版本安装,将安装好的Tesseract-OCR配置到环境变量中去,路径也许会是 C:\Program Files (x86)\Tesseract-OCR\tessdata

1-2

准备好了之后就可以开始解析验证码了

首先用selenium打开网页,并进行一个快照保存当前页面的png

browser = webdriver.Chrome()

url ='http://my.cnki.net/elibregister/commonRegister.aspx'

browser.get(url)

browser.save_screenshot('./images/zhiwang.png')

找到图片验证码,并获取他的四个点的坐标,将验证码截取保存

img = browser.find_element_by_id('checkcode')

left  = img.location['x']#验证码图片左上角横坐标

top    = img.location['y']#验证码图片左上角纵坐标

right  = left + img.size['width']#验证码图片右下角横坐标

bottom = top + img.size['height']#验证码图片右下角纵坐标

im=Image.open('./images/zhiwang.png')

im_crop=im.crop((left,top,right,bottom))#这个im_crop就是从整个页面截图中再截出来的验证码的图片

im_crop.save('./images/zrecaptchar.png')

打开验证码的图片并进行灰度处理

img =Image.open('./images/zrecaptchar.png')

img.show()

#可以看出,验证码文本一般都是黑色的,背景则会更加明亮,所以我们可以通过检查像素是否为黑色将文本分离出来,该处理过程又被称为阈值化。通过 Pillow 可以很容易地实现该处理过程。

gray = img.convert('L')#灰度化,图片转化成灰度图

gray.show()

最后将图片处理成黑白色,即二值化

#二值化,指定而二值化的阈值,默认阈值127

threshold =135

table = []

for i in range(256):

    if i < threshold:

        table.append(0)

    else:

        table.append(1)

bw = gray.point(table,'1')

bw.show()

最后图片识别

strcode = pytesseract.image_to_string(bw)

将处理好的验证码填入验证码输入框中即可,不过这种方式的处理出错率较高,验证的时候一定要记得多试几次

最后附上完整代码

from selenium import webdriver

import pytesseract

from PIL import Image

#Chrome浏览器

browser = webdriver.Chrome()

url ='http://my.cnki.net/elibregister/commonRegister.aspx'

browser.get(url)

checkCode = browser.find_element_by_id('txtOldCheckCode')#验证码输入框

btnReg = browser.find_element_by_id('ButtonRegister')#登陆按键

#快照

browser.save_screenshot('./images/zhiwang.png')

#验证码图片

img = browser.find_element_by_id('checkcode')

left  = img.location['x']#验证码图片左上角横坐标

top    = img.location['y']#验证码图片左上角纵坐标

right  = left + img.size['width']#验证码图片右下角横坐标

bottom = top + img.size['height']#验证码图片右下角纵坐标

im=Image.open('./images/zhiwang.png')

im_crop=im.crop((left,top,right,bottom))#这个im_crop就是从整个页面截图中再截出来的验证码的图片

im_crop.save('./images/zrecaptchar.png')

img =Image.open('./images/zrecaptchar.png')

img.show()

#可以看出,验证码文本一般都是黑色的,背景则会更加明亮,所以我们可以通过检查像素是否为黑色将文本分离出来,该处理过程又被称为阈值化。通过 Pillow 可以很容易地实现该处理过程。

gray = img.convert('L')#灰度化,图片转化成灰度图

gray.show()

#二值化,指定而二值化的阈值,默认阈值127

threshold =135

table = []

for i in range(256):

    if i < threshold:

        table.append(0)

    else:

        table.append(1)

bw = gray.point(table,'1')

bw.show()

strcode = pytesseract.image_to_string(bw)

checkCode.send_keys(strcode)

#模拟点击按钮

btnReg.click()

1-3 1-4 1-5

圆满结束,如果成功率不高的话,可以适当调整二值化阈值,不过总体成功率有待改善。

相关文章

  • 三. 突破反爬虫

    1.反爬虫措施一般分为四类:①基于验证码的反爬虫:传统验证码、逻辑验证码、滑动验证码、google访问时弹出的验证...

  • 爬虫-3 网站验证码识别&破解

    CodeClass.py 古诗文网验证码识别 爬虫之验证码识别–古诗文网 | 码农家园 (codenong.com...

  • 爬虫 之 验证码(一)

    验证码的是反爬虫策略之一,要如何解决验证码问题? 简单的验证码可以通过二值化的办法 我们以http://my.cn...

  • 58手势验证码的分析

    做爬虫的小伙伴们肯定都深有体会,爬虫要是遇到验证码了基本上就是GG了。于是爬虫工作者和验证码之间必有一战。随着w...

  • 【爬虫】(二)爬取西电教务处成绩

    date: 2016-12-15 16:44:39 爬虫之西电教务处成绩测试代码,遇到验证码,已挂。

  • 最头疼的验证码,爬虫中的验证码如何破?

    "写爬虫的时候遇到过反爬虫措施中的验证码吗,最终是怎样解决的",面试官经常这么问. 什么是验证码?...

  • 验证码的识别

    验证码是一种反爬虫的措施,目前的验证码主要有图像验证码、极验滑动验证码、点触验证码、微博宫格验证码等。根据不同类型...

  • 爬虫笔记(10)插曲 挑战极限验证码

    1.前言 既然有爬虫的存在那就有反爬虫技术的存在,验证码是常见手段,不过最近发现不少网站使用极限验证码。对于普通验...

  • 使用MaskRCNN进行手势验证码识别

    相信做某本地生活平台网站爬虫的同学,饱受手势验证码的困扰,这类验证码相比滑块验证码,识别难度更大。 看到这种验证码...

  • Python 实现识别弱图片验证码

    目前,很多网站为了防止爬虫肆意模拟浏览器登录,采用增加验证码的方式来拦截爬虫。验证码的形式有多种,最常见的就是图片...

网友评论

      本文标题:爬虫 之 验证码(一)

      本文链接:https://www.haomeiwen.com/subject/ptnjkqtx.html