美文网首页
selenium使用方法

selenium使用方法

作者: socket_e30c | 来源:发表于2018-12-26 20:36 被阅读0次

    参考自(网易云课堂知了课堂-21天学会分布式爬虫)

    1.获取ajax数据的方式

    1. 直接分析ajax调用的接口。然后通过代码请求这个接口。
    2. 使用Selenium+chromedriver模拟浏览器行为获取数据。
    方式 优点 缺点
    分析接口 直接可以请求到数据。不需要做一些解析工作。代码量少,性能高。 分析接口比较复杂,特别是一些通过js混淆的接口,要有一定的js功底。容易被发现是爬虫
    selenium 直接模拟浏览器的行为。浏览器能请求到的,使用selenium也能请求到。爬虫更稳定。 代码量多。性能低。

    2.Chromedriver

    ChromeDriver下载地址:https://sites.google.com/a/chromium.org/chromedriver/downloads

    3.Selenium+chromedriver安装及使用

    1.安装Selenium

    pip install selenium
    
    

    2.引入chromedriver

    from selenium import webdriver
    
    # chromedriver的绝对路径
    driver_path = r'E:\chromedriver\chromedriver.exe'
    
    # 初始化一个driver,并且指定chromedriver的路径
    driver = webdriver.Chrome(executable_path=driver_path)
    
    

    3.Selenium基本操作方法

    1. 基础操作
    # 请求网页
    driver.get("https://www.baidu.com/")
    
    # 关闭网页
    driver.close()
    
    # 关闭浏览器
    driver.quit()
    
    
    1. 查找Html元素
    # 根据ID来查找某个元素
    driver.find_element_by_id('')
    driver.find_element(BY.ID,"")
    
    # 根据类名来查找某个元素
    driver.find_element_by_class_name('')
    driver.find_element(BY.CLASS_NAME,'')
    
    # 根据name属性来找查找某个元素
    driver.find_element_by_name("")
    driver.find_element(BY.NAME,"")
    
    # 根据标签名来查找某个元素
    driver.find_element_by_tag_name('')
    driver.find_element(BY.TAG_NAME'')
    
    # 根据xpath语法来查找某个元素
    driver.find_element_by_xpath('//div')
    driver.find_element(BY.XPATH,'//div')
    
    # 根据css选择器来查找某个元素
    driver.find_element_by_css_selector('//div')
    driver.find_element(BY.CSS_SELECTOR,'//div')
    
    

    find_element是获取第一个满足条件的元素。find_elements是获取所有满足条件的元素。

    1. 操作表单元素
    • 操作输入框
    # 找到输入框元素
    inputTag = driver.find_element_by_id('kw')
    
    # 填充数据
    inputTag.send_keys("python")
    
    # 清除数据
    inputTag.clear()
    
    
    • 操作checkbox
    # 选择checkbox内标签对应的name值
    rememberTag = driver.find_element_by_name("rememberMe")
    
    # 执行选中操作
    rememberTag.click()
    
    
    • 操作select

      select元素不能直接点击。因为点击后还需要选中元素。这时候selenium就专门为select标签提供了一个类<mark style="box-sizing: border-box;">selenium.webdriver.support.ui.Select</mark>。将获取到的元素当成参数传到这个类中,创建这个对象。以后就可以使用这个对象进行选择了。

    from selenium.webdriver.support.ui import Select
    
     # 选中这个标签,然后使用Select创建对象
     selectTag = Select(driver.find_element_by_name("jumpMenu"))
    
     # 根据索引选择
     selectTag.select_by_index(1)
    
     # 根据值选择
     selectTag.select_by_value("http://www.95yueba.com")
    
     # 根据可视的文本选择
     selectTag.select_by_visible_text("95秀客户端")
    
     # 取消选中所有选项
     selectTag.deselect_all()
    
    
    • 操作按钮
    # 选中按钮
    inputTag = driver.find_element_by_id('su')
    
    # 点击
    inputTag.click()
    
    

    4.行为链

    有时候在页面中的操作可能要有很多步,那么这时候可以使用鼠标行为链类ActionChains来完成。比如现在要将鼠标移动到某个元素上并执行点击事件。

    # 获取输入框
    inputTag = driver.find_element_by_id('kw')
    # 获取提交按钮
    submitTag = driver.find_element_by_id('su')
    
    #初始化行为链
    actions = ActionChains(driver)
    
    # 输入框输入内容
    actions.move_to_element(inputTag)
    actions.send_keys_to_element(inputTag,'python')
    
    # 点击提交按钮
    actions.move_to_element(submitTag)
    actions.click(submitTag)
    
    # 执行行为链
    actions.perform()
    
    

    还有更多的鼠标相关的操作。

    click_and_hold(element):点击但不松开鼠标。

    context_click(element):右键点击。

    double_click(element):双击。

    5.Cookies操作

    1.获取所有cookies

    for cookie in driver.get_cookies():
        print(cookie)
    
    

    2.根据cookie的key获取value

    value = driver.get_cookie(key)
    
    

    3.删除所有的cookie

    driver.delete_all_cookies()
    
    

    4.删除某个cookie

    driver.delete_cookie(key)
    
    

    6.切换页面

    # 打开一个新的页面
    driver.execute_script("window.open('"+url+"')")
    
    # 切换到这个新的页面中
    driver.switch_to_window(driver.window_handles[1])
    

    相关文章

      网友评论

          本文标题:selenium使用方法

          本文链接:https://www.haomeiwen.com/subject/rlmklqtx.html