12 字符验证码

作者: yungege | 来源:发表于2019-08-06 22:33 被阅读0次

12 字符验证码
iOS-仿智联字符图片验证码
一个验证码生成类
有了Python+Tensorflow！所有验证码识别都能快人一
OpenCV入门之获取验证码的单个字符（二）
字符类验证码识别——常用算法及主要流程
生成16位验证码
令人感到过分，又跑出来教人用python破解验证码，还是可训练模
python2.7搬运--->TensorFlow - 深
常用验证码之算术验证码

12 字符验证码

一、验证码简介

什么是验证码？

验证码（CAPTCHA）是“Completely Automated Public Turing test to tell Computers and Humans Apart”（全自动区分计算机和人类的图灵测试）的缩写。

是一种用来区分用户是计算机还是人的公共全自动程序。

验证码的作用？

认证码是一种人机识别手段，最终目的是区分正常用户和机器的操作。

可以防止：恶意破解密码、注册、刷票、论坛灌水，防止黑客对用户的密码进行暴力破解。

一般是提出一个问题，这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答这个的问题，所以回答出问题的用户就可以被认为是人类。

验证码类别

验证码自面世以来就一直在更新，迭代。

图形验证码：这类验证码大多是计算机随机产生一个字符串，在把字符串增加噪点、干扰线、变形、重叠、不同颜色、扭曲组成一张图片来增加识别难度。

滑动验证码：也叫行为验证码，比较流行的一种验证码，通过用户的操作行为来完成验证，其中最出名的就是极验。

滑动验证码的原理就是使用机器学习中的深度学习技术，根据一些特征来区分是否为正常用户。通过记录用户的滑动速度，还有每一小段时间的瞬时速度，用户鼠标点击情况，以及滑动后的匹配程度来识别。而且，不是说滑动到正确位置就是验证通过，而是根据特征识别来区分是否为真用户，滑到正确位置只是一个必要条件。

点触验证码：点击类验证码都是给出一张包含文字的图片，通过文字提醒用户点击图中相同字的位置进行验证。

二、Pillow库

PIL库
PIL (Python Image Library) 已经算是 Python 处理图片的标准库了，兼具强大的功能和简洁的 API.
但是PIL库的更新非常缓慢，并且它只支持到python2.7，不支持python3

Pillow
由于PIL库更新太慢了，于是于是一群志愿者在PIL库的基础上创建了一个新的分支版本，命名为Pillow.
Pillow目前最新支持到python3.6，它的维护和开发十分活跃，兼容PIL库的绝大多数语法，并且增加了许多新的特性，推荐直接使用Pillow

注意点
Pillow和PIL不能共存在一个环境中，如果你之前安装了PIL的话，需要删除掉才能在安装Pillow
由于是继承自PIL的分支，所以Pillow库的导入是这样的
Import PIL

1、PIL基本概念

PIL中所涉及的基本概念有如下几个：通道(bands)、尺寸(size)、坐标系统(coordinate system)。

通道：

每张图片都是由一个或者多个数据通道构成，如果这些通道具有相同的维数和深度，PIL允许将这些通道进行叠加
以RGB图像为例，每张图片都是由三个数据通道叠加构成，分别为R 、G 、B。
对于灰度图像（没有色彩的图片， RGB色彩分量全部相等），只有一个通道。
灰度指的是黑白图像中点的颜色深度，范围一般是0到255，白色为255，黑色为0

对于一张图片的通道数量和名称，可以通过方法getbands()来获取。方法getbands()是PIL中Image子模块的方法，它会返回一个字符串组成的元祖，元祖中包括了每一个通道的名称。

尺寸：

图片尺寸（size）指的是图片的宽度和高度
通过size属性可以获取图片的尺寸，它的返回值是一个元祖，元祖里面有两个值，分别是水平和垂直方向上的像素个数

坐标系统 ：

PIL使用笛卡尔像素坐标系统，图像的左上角为左边的原点（0，0），这就意味着，x轴的数值是从左到右增长的，y轴的数值是从上到下增长的。
在我们处理图像的时候，常常需要去表示一个矩形的图像区域。Pillow中很多方法都需要传入一个表示矩形区域的元祖
这个元祖包含四个值，分别表示矩形四条边距离x轴或者y轴的距离。顺序是（左，顶，右，底）
例如，一个800x600的像素图像表示为（0， 0， 800， 600）

from PIL import Image

im = Image.open('yasuo.jpg')

# 获取通道
print('通道：', im.getbands())
# 获取尺寸size
print('尺寸：',im.size)

# 调用系统默认图片打开应用打开
im.show()

2、PIL操作图像

Image是Pillow中最为重要的类，实现了Pillow中大部分的功能，创建这个类的实例主要有三个方式：

1.从文件中加载图像

2.创建一个新的图像

3.处理其他的图像获得

from PIL import Image

im1 = Image.open('yasuo.jpg')

im2 = Image.new('RGB', (200,200), 'red')

im3 = im1.crop((100, 100, 200, 200))

im2.show()
im3.show()

三、简单验证码处理

1、灰度化

像素点是最小的图片单元，一张图片由很多像素点构成，一个像素点的颜色是由RGB三个值来表现的，所以一个像素点对应三个颜色向量矩阵，我们对图像的处理就是对这个像素点的操作。

图片的灰度化，就是让像素点矩阵中的每一个像素点满足 R=G=B，此时这个值叫做灰度值，白色为0，黑色为255

灰度转化一般公式为：

R=G=B = 处理前的 RX0.3 + GX0.59 + B*0.11

from PIL import Image

im1 = Image.open('yasuo.jpg')

# 灰度化
im2 = im1.convert('L')

im2.show()

2、二值化

图像的二值化，就是将图像的像素点矩阵中的每个像素点的灰度值设置为0（黑色）或255（白色），从而实现二值化，将整个图像呈现出明显的只有黑和白的视觉效果。

二值化原理是利用设定的一个阈值来判断图像像素是0还是255，一般小于阈值的像素点变为0，大于的变成255

这个临界灰度值就被称为阈值，阈值的设置很重要，阈值过大或过小都会对图片造成损坏

选择阈值的原则是：既要尽可能保存图片信息，又要尽可能减少背景和噪声的干扰

常用阈值选择的方法是：

灰度平局值法：取127 （0~255的中数，（0+255）/2 = 127）

平均值法：计算像素点矩阵中的所有像素点的灰度值的平均值avg

迭代法：选择一个近似阈值作为估计值的初始值，然后进行分割图像，根据产生的子图像的特征来选取新的阈值，在利用新的阈值分割图像，经过多次循环，使得错误分割的图像像素点降到最小。

from PIL import Image

im1 = Image.open('yasuo.jpg')

w,h = im1.size

# 获取像素点集合
pixdata = im1.load()

im1.show()

for x in range(w):
    for y in range(h):
        p = list(pixdata[x, y])
        if p[0] <127:
            p[0] = 0
            p[1] = 0
            p[2] = 0
        else:
            p[0] = 255
            p[1] = 255
            p[2] = 255
        pixdata[x, y] = tuple(p)

im1.show()

3、降噪

经过了二值化处理，整个图片像素就被分为了两个值0和255，如果一个像素点是图片或者干扰因素的一部分，那么她的灰度值一定是0（黑色），如果一个点是背景，其灰度值应该是255，白色

所以对于孤立的噪点，他的周围应该都是白色，或者大多数点都是白色的，所以在判断的时候条件应该放宽，一个点是黑色并且相邻的点为白色的点的个数大于一个固定的值，那么这个点就是噪点。

我们根据一个点A的RGB值，与周围的8个点的RBG值比较，设定一个值N（0 <N <8），当A的RGB值与周围8个点的RGB相等或者小于N时，此点为噪点

四、OCR识别

OCR （Optical Character Recognition）光学字符识别，指的是对文本资料的图像文件进行分析识别处理，获取文集及版面信息的过程

Tesseract-OCR是一个开源的字符识别引擎，我们可以用他来识别一些简单的验证码。

Windows安装：

安装文件在

Linux安装：

sudo apt-get install tesseract-ocr

sudo apt-get install libtesseract-dev

Mac安装：

brew install tesseract

Pytesser3是一个在Python内使用Tesseract-Ocr的库，安装非常简单：

pip install Pytesser3

然后需要进行配置，将pytesser3包下面init文件内tesseract_exe_name的值设置为为你的tesseract.exe的路径

12 字符验证码
12 字符验证码一、验证码简介什么是验证码？验证码（CAPTCHA）是“Completely Automat...
iOS-仿智联字符图片验证码
项目中有时候会有这种需求: 获取这种随机字符组成的图片验证码.随机字符组成的图片验证码, 字符位数可改变, 字符...
一个验证码生成类
1.定义验证码字符数，生成验证码图片的宽高 2.生成验证码字符 3.创建画布，写入验证码 4.画一些干扰线条 5....
有了Python+Tensorflow！所有验证码识别都能快人一
验证码分析和处理网上搜索验证码识别能够得到很多教程，但大部分都是将验证码切割成单个字符训练，有时候验证码字符大...
OpenCV入门之获取验证码的单个字符（二）
在文章 OpenCV入门之获取验证码的单个字符（字符切割）中，介绍了一类验证码的处理方法，该验证码如下：该验...
字符类验证码识别——常用算法及主要流程
验证码识别相关字符类验证码识别主要过程去噪二值化切分归一化特征提取训练模型再优化字符类验证码基本...
生成16位验证码
需求1: 生成16位随机验证码需求2: 要求验证码包含大小写字母,数字,特殊字符
令人感到过分，又跑出来教人用python破解验证码，还是可训练模
实验背景验证码是反爬虫的利器，传统的方法需要字符切割，字符识别，但是对于字符重叠的，字符扭曲的情况，识别效果差。...
python2.7搬运--->TensorFlow - 深
谷歌的开源深度学习工具 --py 简介验证码主要用于防刷，传统的验证码识别算法一般需要把验证码分割为单个字符，然...
常用验证码之算术验证码
写在前面这里是常用验证码的第二篇——算术验证码。在上一篇已经实现了常用验证码之字符串验证码，感兴趣的可以去看一下...

12 字符验证码

12 字符验证码

一、验证码简介

二、Pillow库

1、PIL基本概念

2、PIL操作图像

三、简单验证码处理

1、灰度化

2、二值化

3、降噪

四、OCR识别

相关文章

12 字符验证码

iOS-仿智联字符图片验证码

一个验证码生成类

有了Python+Tensorflow！所有验证码识别都能快人一

OpenCV入门之获取验证码的单个字符（二）

字符类验证码识别——常用算法及主要流程

生成16位验证码

令人感到过分，又跑出来教人用python破解验证码，还是可训练模

python2.7搬运--->TensorFlow - 深

常用验证码之算术验证码

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读