预·思路

要做的并不多，封装类，方法各司其职！验证的关键部位（文字坐标）交给第三方平台；

以国家企业信用信息公示系统网站为例，点击查询就会产生验证界面！

selenium控制浏览器进入页面，查询调出验证页面
查看网页获取图片链接，将图片转成字节流的形式传给第三方平台
第三方返回图片中各个文字的坐标值，点击图片中的文字
等待验证成功！

有一些编写程序时候的问题，在最后说明；

正·代码

进入页面，输入查询公司或企业，点击查询，弹出验证页面

# 注册超级鹰，进入页面生成软件id
CHAOJIYING_USERNAME = ''
CHAOJIYING_PASSWORD = ''
CHAOJIYING_SOFT_ID = 
CHAOJIYING_KIND_FOUR = 9004  # 1~4 9004    #1~5 9201
CHAOJIYING_KIND_FIVE = 9008  # 5~8 9008
DATA_TEXT = '小米科技'
class CrackTouClick():
    def __init__(self):
        self.url = 'http://www.gsxt.gov.cn/index.html'
        self.browser = webdriver.Chrome()
        self.wait = WebDriverWait(self.browser, 20)
        self.chaojiying = Chaojiying(CHAOJIYING_USERNAME, CHAOJIYING_PASSWORD, CHAOJIYING_SOFT_ID)
    
    def __del__(self):
        self.browser.close()
    
    def open(self):
        """
        打开网页输入用户名密码
        :return: None
        """
        self.browser.get(self.url)

    def text_input(self):
        '''
        输入查询标签
        :return: 
        '''
        input = self.wait.until(EC.presence_of_element_located((By.ID, 'keyword')))
        return input

这个时候利用第三方平台，传入图片字节流（或者base64加密转码）！

图片
传入方式
注意：
在第三方源码中第二种方式需要更改键为file_base（已标注）
更改方式
第三方返回信息（其中就有文字坐标）(pic_str)

{'err_no': 0, 'err_str': 'OK', 'pic_id': '3068920282435800059', 'pic_str': '203,298|67,264|242,60|238,260', 'md5': '6330865e91232108ae828df101edff12'}

这样，我们获取了文字坐标值，就可以进行解析点击文字了！

    def get_touclick_button(self):
        """
        获取初始验证按钮
        :return:
        """
        time.sleep(3)
        button = self.wait.until(EC.element_to_be_clickable((By.ID, 'btn_query')))
        return button
    
    def get_touclick_element(self):
        """
        获取验证图片对象
        :return: 图片对象，图片链接
        """
        element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_item_img')))
        url_http = element.get_attribute('src')
        #print(url_http)
        return element,url_http

    def get_points(self, captcha_result):
        """
        解析识别结果
        :param captcha_result: 识别结果
        :return: 转化后的结果
        """
        groups = captcha_result.get('pic_str').split('|')
        locations = [[int(number) for number in group.split(',')] for group in groups]
        return locations
    
    def touch_click_words(self, locations):
        """
        点击验证图片
        :param locations: 点击位置
        :return: None
        """
        for location in locations:
            print(location)
            element,url_http = self.get_touclick_element()
            ActionChains(self.browser).move_to_element_with_offset(element, location[0],
                                                                   location[1]).click().perform()
            time.sleep(0.5)
    
    def touch_click_verify(self):
        """
        点击验证按钮
        :return: None
        """
        button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'geetest_commit_tip')))
        button.click()

    def request_download(self,IMAGE_URL):
        '''
        获取图片链接转换字节流，传入超级鹰
        :return:
        '''
        r = requests.get(IMAGE_URL)
        res = requests.get(IMAGE_URL,stream=True)  # 获取字节流最好加stream这个参数,原因见requests官方文档

        byte_stream = BytesIO(res.content)  # 把请求到的数据转换为Bytes字节流

        roiImg = Image.open(byte_stream)  # Image打开Byte字节流数据
        # roiImg.show()   #  弹出 显示图片
        imgByteArr = BytesIO()  # 创建一个空的Bytes对象

        roiImg.save(imgByteArr, format='PNG')  # PNG就是图片格式，我试过换成JPG/jpg都不行

        imgByteArr = imgByteArr.getvalue()  # 这个就是保存的图片字节流
        with open('img.png', 'wb') as f:
            f.write(r.content)

        return imgByteArr

到这里，我已经完成了程序需要的一切，配合selenium工具是大大减少了开发者的编写难度，需要关注的主要是图片转码、解析返回信息等图片处理问题！

说明·问题

本次验证码识别借鉴崔庆才《python3爬虫开发实战》提供的代码思路，有一个比较大的问题就是他用网页截图的方式来获取图片，毕竟是两年前的代码，当时的验证码肯定和现在的有所不同，所以说不能直接截取（不能获取文字顺序，影响识别率），经过优化，获取网页隐藏图片链接地址，通过io库里的方法，对图片进行转换字节流传入第三方py文件！

第三方（超级鹰）

在网站注册账号，进入页面生成软件id；

软件id
还有需要在那下载一个py文件（在开发文档里），放入你程序同位置就好（方便调用）

python文件
还有一个问题就是，在第三方网站中没有提供1~5个文字的坐标代码，联系客服得知有这个代码9201，但是识别率不太好，所以没有放出来，同时5~8文字的坐标代码还是有的，并且可以识别5个字符以下的文字！