美文网首页
如何进行Python爬虫验证码破解?(附详细代码)

如何进行Python爬虫验证码破解?(附详细代码)

作者: 来自火星的大猫 | 来源:发表于2018-11-16 16:59 被阅读0次

    1.破解验证码常见的三种方法:

    (1)把验证码下载到本地,手动输入进行破解

    (2)Tesseract光学识别模块:能够自动识别验证码,准确率不高,只能识别一些简单验证码

    代码测试

    pip install pytesseract

    pip install pillow

    # 转化为灰度图片

    img = img.convert('L')

    img.show()

    # 二值化处理

    threshold = 140

    table = []

    for i in range(256):

    if i < threshold:

    table.append(0)

    else:

    table.append(1)

    out = img.point(table, '1')

    out.show()

    img = img.convert('RGB')

    enhancer = ImageEnhance.Color(img)

    enhancer = enhancer.enhance(0)

    enhancer = ImageEnhance.Brightness(enhancer)

    enhancer = enhancer.enhance(2)

    enhancer = ImageEnhance.Contrast(enhancer)

    enhancer = enhancer.enhance(8)

    enhancer = ImageEnhance.Sharpness(enhancer)

    img = enhancer.enhance(20)

    (3)云打码平台:

    云打码

    2.下面是我们用第一种方法来破解验证码:把验证码下载到本地,手动输入进行破解

    前期准备工作:

    爬取网站:古诗文网站 https://www.gushiwen.org/

    开发环境:pycharm,python3.6

    抓包工具:fiddler抓包,抓取登录接口

    使用第三方模块:请求模块 requests,解析模块bs4

    流程思路:

    (1)首先明确我们要爬取的内容,准备好需要的开发工具和环境

    (2)第一步:我们要进行模拟登录古诗文网站遇到的验证码,使用requests模块进行模拟登录,同时我们要先找到验证码的链接,下载好验证码

    (3)第二步:登录发送的请求时候,我们手动输入下载好的验证码

    实战代码:

    首先在pycharm下导入我们需要的第三方模块:requests,bs4

    模拟登录页面的验证码图片,找到页面标签。然后解析定位,下载到本地

    模拟登录之前,首先先输入验证码。然后再发送登录请求。用的是requests模块,直接封装好表单数据

    运行函数:

    上面是截图,下面是源代码:

    #导入我们需要的第三方库

    import requests

    from bs4 import BeautifulSoup

    import urllib.request

    #封装好请求头

    headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',

    }

    #下载登录页面的图片

    def download_code(s):

    url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'

    r = s.get(url=url, headers=headers)

    soup = BeautifulSoup(r.text, 'lxml')

    # 得到图片链接,

    image_src = 'https://so.gushiwen.org' + soup.find('img', id="imgCode")['src']

    # print(image_src)

    r_image = s.get(image_src, headers=headers)

    with open('code.png', 'wb') as fp:

    fp.write(r_image.content)

    # 查找表单所需要的两个参数

    __VIEWSTATE = soup.find('input', id="__VIEWSTATE")['value']

    __VIEWSTATEGENERATOR = soup.find('input', id="__VIEWSTATEGENERATOR")['value']

    return __VIEWSTATE, __VIEWSTATEGENERATOR

    #模拟登录

    def login(view, viewg, s):

    post_url = 'https://so.gushiwen.org/user/login.aspx?from=http%3a%2f%2fso.gushiwen.org%2fuser%2fcollect.aspx'

    # 提示用户输入验证码

    code = input('哥们.麻烦你输入验证码:')

    formdata = {

    '__VIEWSTATE': view,

    '__VIEWSTATEGENERATOR': viewg,

    'from': 'http://so.gushiwen.org/user/collect.aspx',

    'email': '1090509990@qq.com',

    'pwd': '123456',

    'code': code,

    'denglu': '登录',

    }

    r = s.post(url=post_url, headers=headers, data=formdata)

    with open('gushi.html', 'w', encoding='utf8') as fp:

    fp.write(r.text)

    def main():

    # 创建会话

    s = requests.Session()

    # 下载验证码到本地

    view, viewg = download_code(s)

    # 向post地址发送请求

    login(view, viewg, s)

    if __name__ == '__main__':

    main()

    ----------END

    相关文章

      网友评论

          本文标题:如何进行Python爬虫验证码破解?(附详细代码)

          本文链接:https://www.haomeiwen.com/subject/kzgmfqtx.html