美文网首页
python Selenium 常用知识点总结

python Selenium 常用知识点总结

作者: fanchuang | 来源:发表于2021-03-31 04:00 被阅读0次

    个人常犯的错误, 误区,陷阱

    1. driver.execute_script(JS) 这个才是执行 JS,
      注意是 execute_script, 不是 execute。

    页面等待。这个是比较关键的。

    1. 显式等待。貌似比较麻烦,且不常用。
    from selenium.webdriver.support import expected_conditions as EC
    wait = WebDriverWait(driver, 10)
    element = wait.until(EC.element_to_be_clickable((By.ID,'someid')))
    
    1. 隐式等待。推荐使用。

    driver.implicitly_wait(10) # seconds

    定位元素

    1. 定位元素之前,加上这句话,比较安全。

    bot.implicitly_wait(10) # 这句话很关键。

    1. 查找元素的方法
    # 添加在这里
    find_element_by_id()
    find_element_by_name()              # 这个name 是标签里面的一种属性。
    find_element_by_xpath()             
    find_element_by_link_text()         # 比如  'Sign In'
    find_element_by_partial_link_tex()      
    find_element_by_tag_name()
    find_element_by_class_name()
    find_element_by_css_selector()
    

    基本配置,导包

    import os
    import random
    import json
    import pickle
    import time
    from selenium import webdriver
    from selenium.webdriver.chrome.options import Options
    from selenium.webdriver.common.action_chains import ActionChains
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.common.keys import Keys
    import pyautogui as pt
    import pyperclip
    
    

    切换frame

    1. 遇到 iframe,最好是切换过去, 见 https://blog.csdn.net/huilan_same/article/details/52200586

    driver.switch_to.frame(0) # 1.用frame的index来定位,第一个是0

    点击元素。不可点击的元素, 执行下面的方法。

    def real_click(self, driver, ele):
        actions = ActionChains(driver)
        actions.move_to_element(ele)
        actions.click(ele)
        actions.perform()
    

    执行 js, 页面滚动

    # 先滚动到底部,然后再滚动到顶部
    js = "var q=document.documentElement.scrollTop=500"
    bot.execute_script(js)
    
    js2 = "document.body.scrollTop=document.documentElement.scrollTop=0;"
    bot.execute_script(js2)
    

    填写表格。这个需要再读读看。

    element = driver.find_element_by_xpath("//select[@name='name']")
    choices = element.find_elements_by_tag_name("option")
    for c in choices:
        print("Value is: %s" % c.get_attribute("value"))
        c.click()
    

    封装一些自己常用的方法

    @staticmethod
    def save_html(bot):             # 保存 html
        filename = 'ret.html'
        data = bot.page_source
        with open(filename, 'w') as f:
            f.write(data)
        print("保存 html 完成!")
    
    @staticmethod
        def real_click(driver, ele):    # 点击元素
            actions = ActionChains(driver)
            actions.move_to_element(ele)
            actions.click(ele)
            actions.perform()
    
    @staticmethod
    def send_word(ele, word):       # 输入框,输入文字
        ele.clear()
        ele.send_keys(word)
        ele.send_keys(Keys.RETURN)
    

    源码中有趣的,有用的方法

    Driver

    1. driver.current_url # 本身就是静态方法
    2. driver.page_source
    3. driver.save_screenshot('foo.png')
    4. driver.get_log('driver')
    5. driver.page_source # 保存 html 源码,功本地调试,减少网络请求

    WebElement

    1. ele.id # 直接就进可以用、
    2. ele.get_attribute("class") # 这个估计是会很常用的。

    selenium

    1. selenium 加入无图模式,速度快很多。
      self.option = Options()
      self.option.page_load_strategy = "none"
      prefs = {"profile.managed_default_content_settings.images": 2} # 设置无图模式
      self.option.add_experimental_option("prefs", prefs) # 加载无图模式设置
    2. 遇到 BeautifulSoup iframe
      -- 一种解决方案是, 获得iframe的src属性,然后请求并解析其内容:
      -- 另一种是,
      driver.get(url)
      iframe = driver.find_elements_by_tag_name('iframe')[1]
      driver.switch_to.frame(iframe) # 最重要的一步
      soup = BeautifulSoup(driver.page_source, "html.parser")

    相关文章

      网友评论

          本文标题:python Selenium 常用知识点总结

          本文链接:https://www.haomeiwen.com/subject/kcanhltx.html