美文网首页
python爬虫-selenium 的基本使用和常用API

python爬虫-selenium 的基本使用和常用API

作者: 傅里叶的叶 | 来源:发表于2020-11-30 10:45 被阅读0次

    python爬虫-selenium 的基本使用和常用API

    注意:
    很多网站对selenium的webdriver做了反爬,所以推荐使用pyppeteer(更强大些)。
    但是pyppeteer不如selenium稳定,bug少,语法清晰。

    pyppeteer的基本使用
    pyppeteer常用API

    安装

    pip3 install selenium
    注意需要保持chrome和chromedriver 的版本一致
    

    使用

    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_argument('--no-sandbox')  # 这个配置很重要
    chrome_options.add_argument('blink-settings=imagesEnabled=false')
    chrome_options.add_argument('user-agent={}'.format(getRandomUserAgent()))
    chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
    chrome_options.add_argument("--test-type")
    
    # 使用网页手机模式
    mobileEmulation = {'deviceName': 'iPhone 6/7/8'}
    chrome_options.add_experimental_option('mobileEmulation', mobileEmulation)
    
    # 指定chromedriver路径
    driver = webdriver.Chrome(chrome_options=chrome_options, executable_path='/usr/local/bin/chromedriver')
    
    # 发起请求
    driver.get(url=redictUrl)
    
    解释
    from selenium import webdriver
    driver = webdriver.Chrome()
    

    运行上面的脚本,它将启动浏览器并退出。因为没有调用quit()方法,所以浏览器会话仍会存在。但是代码里创建的driver对象已经不在了,理论上不能用脚本控制这个浏览器。它将变成一个僵尸浏览器,只能手动杀死它。

    通过webdriver启动一个浏览器会话大概会有这样三个阶段:

    1. 启动的浏览器驱动代理(hromedriver,Firefox的驱动程序,等等);
    2. 创建一个命令执行器。用来向代理发送操作命令;
    3. 使用代理建立一个新的浏览器会话,该代理将与浏览器进行通信。用sessionId来标识会话。

    因此只要拿到阶段2中的执行器和阶段3中的sessionID就能恢复上次的会话。这两个有api可以直接获取:

    from selenium import webdriver
    
    driver = webdriver.Chrome()
    executor_url = driver.command_executor._url
    session_id = driver.session_id
    print(session_id)
    print(executor_url)
    driver.get("http://www.spiderpy.cn/")
    

    一切就绪,下面就开始实现复用之前会话的功能,

    from selenium import webdriver
    
    driver = webdriver.Chrome()
    executor_url = driver.command_executor._url
    session_id = driver.session_id
    driver.get("http://www.spiderpy.cn/")
    
    print(session_id)
    print(executor_url)
    
    driver2 = webdriver.Remote(command_executor=executor_url, desired_capabilities={})
    driver2.session_id = session_id
    print(driver2.current_url)
    

    重新使用已打开的浏览器

    # 保留URL和session_id
    executor_url = driver.command_executor._url
    session_id = driver.session_id
    # 清除driver
    del driver
    
    # 移除之前driver
    driver2 = ReuseChrome(command_executor=executor_url, session_id=session_id)
    
    # 重新发起请求
    driver2.get(redictUrl)
    
    解释

    可能是因为版本原因吧,反正在我环境中运行时,效果是实现了,能够重新连接到上一个会话,但是却打开了一个新的空白会话。看了下Remote类的源码,发现是因为每次实例化都会调用start_session这个方法新建一个会话。所以解决方法就是继承并重写这个类。自定义一个ReuseChrome这个类重写start_session方法使它不再新建session,使用传入的session_id

    from selenium.webdriver import Remote
    from selenium.webdriver.chrome import options
    from selenium.common.exceptions import InvalidArgumentException
    
    class ReuseChrome(Remote):
    
        def __init__(self, command_executor, session_id):
            self.r_session_id = session_id
            Remote.__init__(self, command_executor=command_executor, desired_capabilities={})
    
        def start_session(self, capabilities, browser_profile=None):
            """
            重写start_session方法
            """
            if not isinstance(capabilities, dict):
                raise InvalidArgumentException("Capabilities must be a dictionary")
            if browser_profile:
                if "moz:firefoxOptions" in capabilities:
                    capabilities["moz:firefoxOptions"]["profile"] = browser_profile.encoded
                else:
                    capabilities.update({'firefox_profile': browser_profile.encoded})
    
            self.capabilities = options.Options().to_capabilities()
            self.session_id = self.r_session_id
            self.w3c = False
    
    

    拖动元素移动

    """
        :param driver:driver
        :param source:要拖拽的html元素
        :param targetOffsetX: 拖拽目标x轴距离
        :return: None
    """
    def simulateDragX(driver,source, targetOffsetX):
        action_chains = webdriver.ActionChains(driver)
        action_chains.click_and_hold(source)
        action_chains.move_by_offset(targetOffsetX-targetOffsetX/3, 0)
        action_chains.release()
        action_chains.perform()
        driver.quit()
    

    selenium 基础-定位

    • Selenium提供了8种定位方式

      • id
      • name
      • class name
      • tag name
      • link text
      • partial link text
      • xpath
      • css selector
    • 定位元素的使用

      定位一个元素 定位多个元素 含义
      find_element_by_id find_elements_by_id 通过元素id定位
      find_element_by_name find_elements_by_name 通过元素name定位
      find_element_by_class_name find_elements_by_class_name 通过classname进行定位
      find_element_by_tag_name find_elements_by_tag_name 通过标签定位
      find_element_by_link_text find_elements_by_link_tex 通过完整超链接定位
      find_element_by_partial_link_text find_elements_by_partial_link_text 通过部分链接定位
      find_elements_by_css_selector find_elements_by_css_selector 通过css选择器进行定位
      find_element_by_xpath find_elements_by_xpath 通过xpath表达式定位
    • 定位下拉标签元素

      import Select
      Select(driver.find_element_by_xpath("//select[@id='9560af43bfc949c4826d329c352e4eb6_class']")).select_by_index(4)   #定位公共互联网环境
      
    • 在iframe框架之间切换

      #切换到指定的iframe框架
      driver.switch_to.frame("mainFrame")  #切换iframe框架
      driver.switch_to.default_content()   #切换到主框架
      

    selenium Webdriver模块的使用

    方法 说明
    set_window_size() 设置浏览器的大小
    back() 控制浏览器后退
    forward() 控制浏览器前进
    refresh() 刷新当前页面
    clear() 清除文本
    send_keys (value) 模拟按键输入
    click() 单击元素
    submit() 用于提交表单
    get_attribute(name) 获取元素属性值
    is_displayed() 设置该元素是否用户可见
    size 返回元素的尺寸
    text 获取元素的文本

    selenium 鼠标的使用

    方法 说明
    ActionChains(driver) 构造ActionChains对象
    context_click() 执行鼠标悬停操作
    move_to_element(above) 右击
    double_click() 双击
    drag_and_drop() 拖动
    move_to_element(above) 执行鼠标悬停操作
    context_click() 用于模拟鼠标右键操作, 在调用时需要指定元素定位
    perform() 执行所有 ActionChains 中存储的行为,可以理解成是对整个操作的提交动作

    selenium 键盘的使用

    模拟键盘按键 说明
    send_keys(Keys.BACK_SPACE) 删除键(BackSpace
    send_keys(Keys.SPACE) 空格键(Space)
    send_keys(Keys.TAB) 制表键(Tab)
    send_keys(Keys.ESCAPE) 回退键(Esc)
    send_keys(Keys.ENTER) 回车键(Enter)
    组合键的使用
    模拟键盘按键 说明
    send_keys(Keys.CONTROL,‘a’) 全选(Ctrl+A)类推x,c,v
    send_keys(Keys.F1…Fn) 键盘 F1…Fn

    selenium 断言信息

    属性 说明
    title 用于获得当前页面的标题
    current_url 用户获得当前页面的URL
    text 获取搜索条目的文本信息

    相关文章

      网友评论

          本文标题:python爬虫-selenium 的基本使用和常用API

          本文链接:https://www.haomeiwen.com/subject/pkmqwktx.html