基于图像定位实现页面自动化（aircv+pyautogui）

作者: 逐风细雨 | 来源:发表于2022-03-09 10:53 被阅读0次

基于图像定位实现页面自动化（aircv+pyautogui）
利用Python+Selenium+AutoIt模拟键盘操作！表
微信小程序实现雪花飘落的效果
什么？你正在学web自动化测试？那这些Selenium的基本操作
ArcPy对齐多张遥感影像的像元位置、统一行列号
2019-07-02 overflow 与锚点定位
Reading Text in the Wild with Co
一种二维码识别定位算法
Web 页面常用元素定位
WebDriver元素定位策略

传统的基于元素定位的UI自动化在断言的时候都存在一个缺陷，无法像人眼一样判断页面的显示效果，虽然也可以通过文本+css+布局等方式，设置多个断言的方式来综合判断，但不够优雅和直观。如果有某种技术可以像人眼一样在图片中查找和定位图片的位置再结合操作系统级别的操作（鼠标，键盘，触摸等等），那就可以近乎于模拟人工操作软件实现自动化。
aircv实现了在图片中查找图片，并可以返回查找图片相对于源图片的位置，如果源图片是全屏截图，那意味着其返回的坐标位置就是屏幕的实际坐标，再结合pyautogui可以在坐标位置进行鼠标操作，在光标位置输入文本等操作，就可以实现一下UI自动化的场景。实践代码如下：
需要登录的界面（部分截图）

image.png
账号（user.png）截图：

image.png
输入框在账号下面大约45个像素，因此先定位的账号的位置，再加一个y偏移量
密码输入框采取类似的定位策略
密码（pwd.png）

image.png

登录按钮(login_button.png)

image.png

代码如下：

import aircv
import pyautogui
import time


def screen(x=1920, y=1080):
    """
    屏幕截图
    :param x: 横坐标
    :param y: 纵坐标
    :return:
    """
    pyautogui.screenshot('screen.png', region=(0, 0, x, y))
    return 'screen.png'


def click_element(src_image, dst_image, offset_x=0, offset_y=0):
    """
    基于图像查找点击
    :param src_image:
    :param dst_image:
    :param offset_x:
    :param offset_y:
    :return:
    """
    src_image = aircv.imread(src_image)
    dst_image = aircv.imread(dst_image)
    result = aircv.find_template(src_image, dst_image)
    # {'result': (828.0, 597.5), 'rectangle': ((804, 582), (804, 613), (852, 582), (852, 613)), 'confidence': 1.0}
    x, y = result.get('result')
    if result.get('confidence') > 0.85:
        pyautogui.click(x + offset_x, y + offset_y)


def input_text_pos(x, y, text):
    """
    在坐标处输入文本
    :param x:
    :param y:
    :param text:
    :return:
    """
    pyautogui.click(x, y)
    pyautogui.write(text)


def input_text_image(dst_image, text, offset_x=0, offset_y=0):
    src_image = screen()
    click_element(src_image, dst_image, offset_x, offset_y)
    pyautogui.write(text)


if __name__ == "__main__":
    # 基于图像查找图片后点击偏移位置，并输入
    input_text_image('user.png', 'abc', offset_y=45)
    input_text_image('pwd.png', 'abc', offset_y=45)
    # 点击登录
    click_element(screen(), 'login_button.png')

定位的关键代码是

    src_image = aircv.imread(src_image) # 源图片的路径
    dst_image = aircv.imread(dst_image) #目标图片的路径
    result = aircv.find_template(src_image, dst_image) # 返回的查找结果
    # {'result': (828.0, 597.5), 'rectangle': ((804, 582), (804, 613), (852, 582), (852, 613)), 'confidence': 1.0}
    # confidence 相似度大于0.85时可以认为查找正确，根据需要做调整。result 目标中心点的坐标，rectangle 目标匹配的四个顶点的坐标

获取到位置后调用pyautogui.click(x,y)进行点击，在输入框取得焦点后调用write()方法输入文本