美文网首页
爬虫游戏第五关

爬虫游戏第五关

作者: pkxutao | 来源:发表于2018-01-02 18:09 被阅读5次

接上篇,来到第五关,地址:http://www.heibanke.com/lesson/crawler_ex04/
界面依旧熟悉,不过多了个验证码

image.png
很明显,这关主要在考如何过验证码,先随便填几个字符点击提交,结果提示密码错误,F12看看请求:
image.png
可以看到提交了5个参数,多了captcha_0和captcha_1,captcha_1就是我刚刚填入的验证码,那么captcha_0是个什么东西?看看源码
image.png
看来这个captcha_0是后台动态生成的一个值,猜测是后台用来匹配验证码的,不过这对我们没影响,直接取这个值提交就行了。
整个页面非常简单,重点在怎样识别验证码,能识别出验证码的话,密码一个个试就行了(作者已经提示密码全部都是数字)。识别验证码我使用了pillow+pytesseract,结果发现识别效率非常低,我也不知道为啥,可能我使用姿势不对?考虑到作者不会搞太难的密码,我干脆手动输入算了(考虑个屁,没办法的办法了)。
代码如下:
# -*- coding: utf-8 -*-
import pytesseract
from PIL import Image
import urllib.request as urllib
from io import BytesIO
from urllib import request
from urllib import parse
from bs4 import BeautifulSoup

def get_page(url, params):
    print('get url %s' % url)
    data = parse.urlencode(params).encode('utf-8')
    header = {
        'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                    r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
        'Connection': 'keep-alive',
        'Cookie':r'Hm_lvt_74e694103cf02b31b28db0a346da0b6b=1514366315; csrftoken=1yFgXVZtw2rACmTYDGABYKs9VWLWqbeH; sessionid=m4paft1uuvhm3thrwvdgwut2rvu8uz8d; Hm_lpvt_74e694103cf02b31b28db0a346da0b6b=1514428404',
        'Refer':'http://www.heibanke.com/lesson/crawler_ex02/'
    }
    req  = request.Request(url, data, headers=header)
    page = request.urlopen(req).read()
    page = page.decode('utf-8')
    return page
count = 0
url = "http://www.heibanke.com/lesson/crawler_ex04/"
token = '1yFgXVZtw2rACmTYDGABYKs9VWLWqbeH'
username = 'pkxutao'
# 构造post参数
data = {
    'csrfmiddlewaretoken': token,
    'username': 'pkxutao',
    'password': -1
}
# result = get_page(url, data)
h3 = ''
# 这里的恭喜判断其实多余,因为里面有对是否正确的判断
while "恭喜" not in h3:
    data['password'] = count
    result = get_page(url, data)
    soup = BeautifulSoup(result, "html.parser")
    # 先获取到captcha_0
    temp = soup.find_all('input', id='id_captcha_0')
    if len(temp) == 0:
        # 说明密码正确
        break
    captcha_0=temp[0]['value']
    data['captcha_0'] = captcha_0
    # 再获取captcha_1,就是验证码
    captcha=soup.find_all('img', class_='captcha')[0]['src']
    resp = urllib.urlopen('http://www.heibanke.com'+captcha)
    img = Image.open(BytesIO(resp.read()))
    # 展示验证码
    img.show()
    code = input()
    print('输入的验证码为 %s' % code)
    # 这里准备用pytesseract自动识别,但识别率实在太低,改为手动
    # img=img.convert('L')
    # img.show()
    # code = pytesseract.image_to_string(img)
    # print('识别的验证码为 %s' % code)
    data['captcha_1']=code
    # result = get_page(url, data)
    # soup = BeautifulSoup(result, "html.parser")
    h3 = soup.find_all("h3")[0].text
    print(h3)
    if h3 not in '验证码输入错误':
        count += 1
print("闯关成功,密码为%s" % count)

pytesseract识别验证码的代码被我注释了,想玩的话可以试试,最后爬到的密码是22,到页面登录,bingo!但是。。。。发现这是最后一关了,可惜了,这游戏还挺好玩的。

相关文章

  • 爬虫游戏第五关

    接上篇,来到第五关,地址:http://www.heibanke.com/lesson/crawler_ex04/...

  • 黑板课爬虫闯关 - 第五关

    这里是黑板课爬虫闯关第五关 同样的需要登陆 在前面的基础上,虽然没有第四关那么复杂,但这里增加了验证码环节,这个很...

  • 烧脑游戏:同一个世界   快来交流一下

    唉!第五关完败,总是过不去!这种游戏一定有某种套路可寻,然而找不到╭(°A°`)╮

  • Python爬虫视频教程

    ├─第1章【第0周】网络爬虫之前奏│ ├─第1节“网络爬虫”课程内容导学│ │ 第1部分全课程内容导...

  • 网络爬虫源码分享

    1.淘宝网商品爬虫源码 2.豌豆荚游戏排行榜爬虫源码 3.尚妆网爬虫源码 4.糗事百科爬虫源码 5.京东商品信息和...

  • 陈小手历险记

    我是陈小手,我正在玩一个《是男人就过第五关》的游戏。 游戏中我是一名产科医生。 游戏旁白,我接到一个电话。电话告诉...

  • 爬虫2 BeautifulSoup

    第0关的requests库帮我们搞定了爬虫第0步——获取数据;第1关的HTML知识,是进行爬虫必不可少的背景知识,...

  • Node爬虫相关

    网络爬虫开发 第1章 课程介绍 什么是爬虫 爬虫的意义 课程内容 前置知识 什么是爬虫 可以把互联网比做成一张“大...

  • 不逼自己一把,你永远不知道自己有多优秀

    打过游戏的人都知道,假如某个游戏有10关,如果你卡在第五关过不去,那你永远看不到终极Boss,也就谈不上通关的喜悦...

  • 拯救Python新手的几个项目实战

    Python 做小游戏 实例一:24点游戏,源码解读下载 进群:862703141获取Python资料+爬虫视频教...

网友评论

      本文标题:爬虫游戏第五关

      本文链接:https://www.haomeiwen.com/subject/llsqnxtx.html