美文网首页
Python爬虫-尝试使用人工和OCR处理验证码模拟登入

Python爬虫-尝试使用人工和OCR处理验证码模拟登入

作者: 小小佐 | 来源:发表于2017-10-24 12:34 被阅读220次

    此次是我第一次模拟登入,目标站点是知乎。
    刚开始在网上看别人一直在说知乎登入首页有有倒立的汉字验证码,我打开自己的知乎登入页面,发现只有账号和密码,他们说的倒立的验证码去哪了,后面仔细一想我之前登入过知乎,应该在本地存在cookies,然后我将cookies删除掉果然就有需要验证码了:

    分析-01.png

    参考了大多数的意见,可以模拟登入移动端,验证码形式是我们常见的字母数字组合,避开这个点击倒立的验证码形式,然后我就在移动端抓包了,可以拿到验证码图片的包,我们可以请求这个URL拿到每次的验证码:

    分析-02.png

    这个URL的结构是:https://www.zhihu.com/captcha.gif?r=xxx&type=login

    分析-03.png

    搜索"<input",可以抓到如下:

    分析-04.png

    要拿到_xsrf、captcha、phone_num、password这四个参数,然后模拟发送POST请求,phone_num、password好处理就是登入的手机号码和密码,手动输入即可。

    对于_xsrf,我是利用了正则表达式来提取,出现的问题:
    1、刚开始的URL写成https://www.zhihu.com/提取不到内容,后面把此请求的response打印出来,发现并不是我们所需要的页面,后面返回PC端去拿到这个URL,返回我们所需的页面。
    2、正则表达式匹配的时候总是多匹配了多余的内容,同样在打印出源代码的时候发现 value="(.*?)"/>有一个/。

    def get_xsrf():
        url='https://www.zhihu.com/signin?next=/'
        html=session.get(url=url,headers=headers).text
        pattern=re.compile('.*?<input type="hidden" name="_xsrf" value="(.*?)"/>', re.S)
        _xsrf=re.search(pattern,html).group(1)
        if _xsrf:
            print('_xsrf获取成功:'+ _xsrf)
            return _xsrf
        else:
            print('_xsrf获取失败')
    

    对于captcha,就是验证码了,在刚开始的时候也提到了,可以请求相应的URL,拿到每次所需的验证码,人工来识别验证码的好处就是准确率高,这里我尝试使用了,人工识别的方法:
    验证码图片会下载至项目所在的文件夹,打开图片,输入验证码即可

    def get_captcha():
        t=int(time.time()*1000)
        url='https://www.zhihu.com/captcha.gif?r='+str(t)+'&type=login'
        content=session.get(url=url,headers=headers).content
        with open('captcha.jpg','wb') as f:
            f.write(content)
        im=Image.open('captcha.jpg')
        im.show()
        time.sleep(5)
        im.close()
        return input('请输入验证码:')
    

    后面我又尝试使用OCR(Optical Character Recogintion,光学字符识别),所用到的包是pytesseract,看能不能够自动识别,但是显然效果是很差的,在此也记录一下:

    def get_captcha():
        t=int(time.time()*1000)
        url='https://www.zhihu.com/captcha.gif?r='+str(t)+'&type=login'
        content=session.get(url=url,headers=headers).content
        with open('captcha.jpg','wb') as f:
            f.write(content)
        im=Image.open('captcha.jpg')             #把彩色图像转化成灰度图像
        gray=im.convert('L')                
        gray.show()                         
        threshold=200                            #二值化处理
        table=[]                                
        for i in range(256):
            if i < threshold:
                table.append(0)
            else:
                table.append(1)
        out=gray.point(table,'1')
        out.show()
        out.save('captcha_thresholded.jpg')
        th=Image.open('captcha_thresholded.jpg')  #使用Tesseract进行图片识别
        print(pytesseract.image_to_string(th))
        return pytesseract.image_to_string(th)
    

    试了几次,OCR识别的结果都是有问题的,结果是这样的:

    分析-07.png

    相关文章

      网友评论

          本文标题:Python爬虫-尝试使用人工和OCR处理验证码模拟登入

          本文链接:https://www.haomeiwen.com/subject/zjytpxtx.html