在用Python,selenium UI自动化模拟登录操作时,都会有验证码,一般解决验证码有以下几种方法:
1、让开发先把验证码屏蔽掉
简单粗暴
2、开发给我们设置一个万能的验证码
设置万能码,就是不管什么情况,输入万能码,都可以成功登录网站
3、验证码识别技术-tesseract
只是识别一些简单的验证码,太复杂的难以通过,而且受限于所识别图片的质量
4、添加cookie登录
首先获取网站登陆后的cookie,然后通过添加cookie的方式,实现网站登陆的目的
我用的是第三种,用tesseract识别Python PIL库截取的验证码图片,然后得到验证码。
一、安装PIL模块(Python Imaging Library)
cmd命令:pip install Pillow
PIL是Python的图像处理标准库,可以做很多和图像处理相关的事情:
图像归档(Image Archives)。PIL非常适合于图像归档以及图像的批处理任务。你可以使用PIL创建缩略图,转换图像格式,打印图像等等。
图像展示(Image Display)。PIL较新的版本支持包括Tk PhotoImage,BitmapImage还有Windows DIB等接口。PIL支持众多的GUI框架接口,可以用于图像展示。
图像处理(Image Processing)。PIL包括了基础的图像处理函数,包括对点的处理,使用众多的卷积核(convolution kernels)做过滤(filter),还有颜色空间的转换。PIL库同样支持图像的大小转换,图像旋转,以及任意的仿射变换。PIL还有一些直方图的方法,允许你展示图像的一些统计特性。这个可以用来实现图像的自动对比度增强,还有全局的统计分析等
二、安装pytesseract模块
cmd命令:pip install pytesseract
tesserocr与pytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,pytesseract是Google的Tesseract-OCR引擎包装器,运行的时候是pytesseract去调用tesserocr
三、安装tesseract-ocr
Python-tesseract是一个基于google's Tesseract-OCR的独立封装包,我们需要下载Tesseract-OCR进行安装,安装完之后需要配置环境变量才能使用,否则会提示找不到
1、 下载地址:tesseract-ocr-setup-4.00.00dev.exe
但是我下载文件的时候特别慢,后来用的好心人分享的百度云文件下载然后安装的
2、环境配置
(1)、添加环境变量: TESSDATA_PREFIX = F:\Tesseract-OCR\tessdata(自己安装的路径),然后将F:\Tesseract-OCR添加到path中
(2)、如下图找到pytesseract.py文件,打开该文件
tesseract_cmd = 'tesseract' 改为:
tesseract_cmd = r'F:\Tesseract-OCR\tesseract.exe'(自己安装的路径)
至此环境全部准备完毕,loginWeb_test代码如下:
import unittest,time,pytesseract
from common import getURLParams
from selenium import webdriver
from PIL import Image,ImageEnhance
class LoginWebTest(unittest.TestCase):
def setUp(self):
self.web_url = getURLParams.web_url
self.driver = webdriver.Chrome()
def tearDown(self):
print("end")
def readVeriCode(self,driver):
# 截图或验证码图片保存地址
screenImg = "F:\工作\screenImg.png"
# 浏览器页面截屏
driver.get_screenshot_as_file(screenImg)
# 定位验证码位置及大小
location = driver.find_element_by_id('verify_code').location
size = driver.find_element_by_id('verify_code').size
left = location['x']
top = location['y']
right = location['x'] + size['width']
bottom = location['y'] + size['height']
# 从文件读取截图,截取验证码位置再次保存
img = Image.open(screenImg).crop((left, top, right, bottom))
img = img.convert('L') # 转换模式:L | RGB
img = ImageEnhance.Contrast(img) # 增强对比度
img = img.enhance(2.0) # 增加饱和度
img.save(screenImg)
# 再次读取识别验证码
img = Image.open(screenImg)
code = pytesseract.image_to_string(img)
# code= pytesser.image_file_to_string(screenImg)
print(code.strip())
return code.strip()
def test_login(self):
driver=self.driver
driver.get(self.web_url)
driver.find_element_by_id("loginName").send_keys("admin")
driver.find_element_by_id("passWord").send_keys("xxxx")
code=self.readVeriCode(driver)
driver.find_element_by_id("number").send_keys(code)
driver.find_element_by_id("loginBtn").click()
time.sleep(5)
info=driver.find_element_by_class_name("text-success").text
print("info:",info)
self.assertEqual(info,"欢迎使用xxxxxx系统","登录失败")
time.sleep(5)#time sleep() 函数推迟调用线程的运行 t -- 推迟执行的秒数
driver.quit()
if __name__ == '__main__':
unittest.main()
每天多学一点点~~
网友评论