爬虫游戏第五关

作者: pkxutao | 来源:发表于2018-01-02 18:09 被阅读5次

爬虫游戏第五关
黑板课爬虫闯关 - 第五关
烧脑游戏:同一个世界快来交流一下
Python爬虫视频教程
网络爬虫源码分享
陈小手历险记
爬虫2 BeautifulSoup
Node爬虫相关
不逼自己一把，你永远不知道自己有多优秀
拯救Python新手的几个项目实战

接上篇，来到第五关，地址：http://www.heibanke.com/lesson/crawler_ex04/
界面依旧熟悉，不过多了个验证码

image.png
很明显，这关主要在考如何过验证码，先随便填几个字符点击提交，结果提示密码错误，F12看看请求:

image.png
可以看到提交了5个参数，多了captcha_0和captcha_1,captcha_1就是我刚刚填入的验证码，那么captcha_0是个什么东西？看看源码

image.png
看来这个captcha_0是后台动态生成的一个值，猜测是后台用来匹配验证码的，不过这对我们没影响，直接取这个值提交就行了。
整个页面非常简单，重点在怎样识别验证码，能识别出验证码的话，密码一个个试就行了（作者已经提示密码全部都是数字）。识别验证码我使用了pillow+pytesseract，结果发现识别效率非常低，我也不知道为啥，可能我使用姿势不对？考虑到作者不会搞太难的密码，我干脆手动输入算了（考虑个屁，没办法的办法了）。
代码如下：

# -*- coding: utf-8 -*-
import pytesseract
from PIL import Image
import urllib.request as urllib
from io import BytesIO
from urllib import request
from urllib import parse
from bs4 import BeautifulSoup

def get_page(url, params):
    print('get url %s' % url)
    data = parse.urlencode(params).encode('utf-8')
    header = {
        'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                    r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
        'Connection': 'keep-alive',
        'Cookie':r'Hm_lvt_74e694103cf02b31b28db0a346da0b6b=1514366315; csrftoken=1yFgXVZtw2rACmTYDGABYKs9VWLWqbeH; sessionid=m4paft1uuvhm3thrwvdgwut2rvu8uz8d; Hm_lpvt_74e694103cf02b31b28db0a346da0b6b=1514428404',
        'Refer':'http://www.heibanke.com/lesson/crawler_ex02/'
    }
    req  = request.Request(url, data, headers=header)
    page = request.urlopen(req).read()
    page = page.decode('utf-8')
    return page
count = 0
url = "http://www.heibanke.com/lesson/crawler_ex04/"
token = '1yFgXVZtw2rACmTYDGABYKs9VWLWqbeH'
username = 'pkxutao'
# 构造post参数
data = {
    'csrfmiddlewaretoken': token,
    'username': 'pkxutao',
    'password': -1
}
# result = get_page(url, data)
h3 = ''
# 这里的恭喜判断其实多余，因为里面有对是否正确的判断
while "恭喜" not in h3:
    data['password'] = count
    result = get_page(url, data)
    soup = BeautifulSoup(result, "html.parser")
    # 先获取到captcha_0
    temp = soup.find_all('input', id='id_captcha_0')
    if len(temp) == 0:
        # 说明密码正确
        break
    captcha_0=temp[0]['value']
    data['captcha_0'] = captcha_0
    # 再获取captcha_1,就是验证码
    captcha=soup.find_all('img', class_='captcha')[0]['src']
    resp = urllib.urlopen('http://www.heibanke.com'+captcha)
    img = Image.open(BytesIO(resp.read()))
    # 展示验证码
    img.show()
    code = input()
    print('输入的验证码为 %s' % code)
    # 这里准备用pytesseract自动识别，但识别率实在太低，改为手动
    # img=img.convert('L')
    # img.show()
    # code = pytesseract.image_to_string(img)
    # print('识别的验证码为 %s' % code)
    data['captcha_1']=code
    # result = get_page(url, data)
    # soup = BeautifulSoup(result, "html.parser")
    h3 = soup.find_all("h3")[0].text
    print(h3)
    if h3 not in '验证码输入错误':
        count += 1
print("闯关成功，密码为%s" % count)

pytesseract识别验证码的代码被我注释了，想玩的话可以试试，最后爬到的密码是22，到页面登录,bingo!但是。。。。发现这是最后一关了，可惜了，这游戏还挺好玩的。