用Python识别网站,app上面的元素

作者: 数据运营python | 来源:发表于2018-11-26 20:08 被阅读1次

基于反爬虫的场景,有一些敏感元素例如手机号码,有一些网站是直接用图片的方式展示,这样就没有办法爬取;还有一种是产品只有手机端,由于网络的传送过程是通过加密传输,即使截取了报文,也没有办法进行解密,这个时候可以通过对手机的界面截图,进行图片识别。

1. 思路

通过屏幕的截屏,保存要处理的界面的图片,通过定位到要获取信息的元素的位置,通过属性获取该元素的坐标,然后在之前保存的图片上,根据坐标截图对应的区间,然后通过pytesseract的包的方法进行图片识别。

2. 依赖的包安装

安装Pillow

pip install Pillow

安装tesseract-ocr
github地址: https://github.com/tesseract-ocr/tesseract
直接安装就可以

安装pytesseract

pip install pytesseract

3. 代码实现

    screenshotPath="e:\pythonimage\image01.png"
    saveImagePath="E:\pythonimage\yanzhengma01.png"
    webdriver.save_screenshot(screenshotPath)
    imglement = webdriver.find_element_by_id("genCheckCode")    #定位验证码
    location = imglement.location     #获取验证码X,Y的坐标
    size = imglement.size             #获取验证码的长宽
    #写成我们需要的位置坐标
    rangle = (int(location['x'])+10,int(location['y']),int(location['x']+size['width']-10),int(location['y']+size['height']))  
    image = Image.open((screenshotPath))     #打开截图
    frame4 = image.crop(rangle)                #使用image的crop函数,从截图中再次截取我们的区域
    frame4.save(saveImagePath)
    qq = Image.open(saveImagePath)
    text = pytesseract.image_to_string(qq).strip() #  使用image_to_string识别验证码
    frame4.close
    image.close()
    qq.close()

欢迎关注公众:sjyy_python

相关文章

  • 用Python识别网站,app上面的元素

    基于反爬虫的场景,有一些敏感元素例如手机号码,有一些网站是直接用图片的方式展示,这样就没有办法爬取;还有一种是产品...

  • 机器学习规划

    学python的同时还要忙着做毕设,于是乎直接用python做了个简单的人脸识别的web app,很简陋,但是py...

  • 记录

    前几天试着用tesseract来实现app上的身份证识别功能,后来发现识别时间较长和识别率不高就放弃了用这种方式。...

  • 用python3爬虫

    识别网站所用技术 python3.6 安装builtwith模块 import builtwithbuiltwit...

  • 2018-01-03 opencv图像识别基础

    零、软件功用和我使用背景 我需要操纵的app屏蔽了控件获取接口,因此直接用图像识别来分辨出app的各个元素进行操作...

  • Python实战开发之Django (一)

    前言 Django是用Python语言编写的轻量级Web应用框架,大多数基于Python搭建的网站或APP都使用D...

  • windowsServer环境下的flask+nginx部署方案

    前言公司APP和网站后台用的是nginx+tomcat的java环境,微信公众号后台用的Flask的python框...

  • Android Hybrid App自动化测试

    一、Selendroid原理、元素识别工具、脚本设计原则 1、Appium原理 针对于Hybrid的App,App...

  • python 的赋值是引用

    python 的 一切都是对象 python 是 高度面向对象特性,所以实际上Python里面的任何元素都是一种对...

  • [Python] 与爬虫相关的一些Python模块

    builtwith:识别网站所用技术python-whois:寻找网站所有者urllib2:下载网页,并返回其HT...

网友评论

    本文标题:用Python识别网站,app上面的元素

    本文链接:https://www.haomeiwen.com/subject/ncqiqqtx.html