Selenium简介

作者: 小T数据站 | 来源:发表于2019-10-15 16:23 被阅读0次

【转】Selenium IDE工具
Selenium Grid简单使用
selenium初探
爬虫（七）使用Selenium爬取百度文库word文章
Selenium底层原理
Selenium入门--IDE功能(1)
爬虫：selenium、pyppeteer、playwright
selenium和pantomjs学习
selenium简介
Selenium 简介

1. 声明浏览器对象

Selenium支持非常多的浏览器，如Chrome、Firefox、Edge等，可用如下方式进行初始化：

from selenium import webdriver

browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()

Mac里需要将chromedriver放在usr/local/bin文件下

2.访问页面

可以用get()方法来请求网页，参数传入链接URL即可，此处拿访问淘宝举例：

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('Https://www.taobao.com') #访问淘宝
print('browser.page_source') #输出淘宝页面的源代码
browser.close() #关闭浏览器

3. 查找节点

单个节点
所有获取单个节点的方法：
find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_tag_name
find_element_by_partial_link_text
find_element_by_class_name
find_element_by_class_selector
多个节点
所有获取多个节点的方法：
find_elements_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_tag_name
find_elements_by_partial_link_text
find_elements_by_class_name
find_elements_by_class_selector

4. 节点交互

Selenium可以驱动浏览器来执行一些操作，也就是说可以让浏览器模拟执行一些动作。比较常见的用法有：输入文字是用send_keys()方法，清空文字时用clear()方法，点击按钮时用click()方法。

from selenium import webdriver
import time 

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
imput = browser.find_element_by_id('q') #根据id找到搜索框
input.send_keys('iPhone') # 在搜索框内输入'iPhone'
time.sleep(1)
input.clear() #清楚搜索框内的内容
input.send_keys('iPad') #在搜索框内输入'iPad'
button = find_element_by_class_name('btn-search') #根据class_name找到搜索按钮
button.click() #点击搜索按钮
browser.close()

更过交互动作介绍可参见官方文档的交互动作介绍：http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webelement

5. 动作链

参见官方文档介绍：http://selenium-python.readthedocs.io/api.html#module-selenium.webdrive.common.action_chains

6. 执行JavaScript

对于某些操作，Selenium API并没有提供。比如，下拉进度条，它可以直接模拟运行JavaScript，此时使用execute_script()方法即可实现，代码如下：

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)') #将进度条拉
browser.execute_script('alert("To Bottom")')
browser.close()

7. 获取节点信息

获取属性
使用get_attribute()

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
logo = browser.find_element_by_id('zh-top-link-logo') #查找logo的节点
print('logo')
print(logo.get_attribute('class')) #输出logo的属性

获取文本值

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zh-top-add-question') 
print(input.text())

获取ID、位置、标签名和大小

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zh-top-add-question')
print(input.id)
print(input.location)
print(input.tag_name)
print(inout.size)

这里首先获得“提问“按钮的这个节点，然后调用其id、location、tag_name、size属性来获取对应的属性值。

8. 切换Frame

网页中有一种节点叫做iframe，也就是子frame，相当于页面的子页面，它的结构和外部网页的结构完全一致，需要使用switch_to.frame()方法来切换Frame。

9. 延时等待

在Selenium中，get()方法会在网页框架加载结束后结束执行，此时如果获取page_source，可能并不是浏览器完全加载完成的页面，如果某些页面有额外的Ajax请求，我们在网页源代码中也不一定能成功获取到。所以，这里需要延时等待一定的时间，确保节点已经加载出来。

隐式等待
当使用隐式等待执行测试的时候，如果Selenium没有在DOM中找到节点，将继续等待，超出设定事件后，则抛出找不到节点的异常。使用implicitly_wait()方法实现隐式等待：

from selenium import webdriver

browser = web.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

显式等待
指定要查找的节点，然后指定一个最长等待时间，如果在规定时间加载出来了这个节点，就返回查找的节点；如果规定的时间依然没有加载出该节点，则抛出超时异常。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()
browser.get('https://www.taobao.com/')
wait = WebDriverWait(browser,10)
input = wait.until(EC.presence_of_element_located((By.ID,'q')))
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'.btn-search')))
print(input,button)

上诉代码的效果是，在10秒内如果id为q的节点成功加载出来，就返回该节点；如果没加载出来就抛出异常。对于按钮，如果10秒内它是可点击的，就返回这个按钮节点；如果没有，就抛出异常。
所有的等待条件如下：

等待条件	含义
title_is	标题是某内容
title_contains	标题包含某内容
presence_of_element_located	节点加载出来，传入定位元组，如(By.ID,'p')
visibility_of_element_located	节点可见，传入定位元组
visibility_of	可见，传入节点对象
presence_of_all_elements_located	所有节点加载出来
text_to_be_present_in_element	某个节点文本包含某文字
text_to_be_present_in_element_value	某个节点值包含某文字
frame_to_be_available_and_switch_to_it	加载并切换
invisibility_of_element_located	节点不可见
element_to_be_clickable	节点可点击
staleness_of	判断一个节点是否仍在DOM，可判断页面是否已经刷新
element_to_be_selected	节点可选择，传节点对象
element_located_to_be_selected	节点可选择，传入定位元组
element_selection_state_to_be	传入节点对象以及状态，相等返回True，否则返回False
element_located_selection_state_to_be	传入定位元组以及状态，相等返回True，否则返回False
alert_is_present	是否出现警告

10. 前进和后退

使用back()方法后退，使用forward()方法前进。

import time 
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.get('https://www.taobao.com')
browser.get('https://wwww.python.org')
browser.back()
time.sleep(1)
browser.forward()
browser.close()

11. Cookies

使用Selenium可以对Cookies进行操作，例如获取、添加、删除Cookies等。

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())
browser.add_cookie({'name':'name','domain':'www.zhihu.com','value':'germey'})
print(browser.get_cookies())
browser.delete_all_cookies()
print(browser.get_cookies())

12. 选项卡管理

在浏览器打开的时候，会开启一个个的选项卡，在Selenium中，也可以对其进行操作。

import time
from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()') #新建一个选项卡
print(browser.window_handles)
browser.switch_to.window(browser.window_handles[1]) #跳转到第二个选项卡
browser.get('https://www.taobao.com')
time.sleep(1)
browser.switch_to.window(browser.window_handles[0]) #跳转到第一个选项卡
browser.get('https://python.org')
browser.close()

13. 异常处理

使用try except语句来捕获各种异常。

from selenium import webdriver
from selenium.common.exceptions import TimeoutException,NoSuchElementException

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')
except TimeoutException:
    print('Time Out')
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()

更多的异常类，可参考官方文档：http://selenium-python.readthedocs.io/api.html#module-selenium.common.exceptions

以上总结于崔庆才的《python3网络爬虫开发实战》

【转】Selenium IDE工具
Selenium IDE简介 Selenium IDE(Integrated Development Enviro...
Selenium Grid简单使用
一、简介 Selenium Grid是Selenium的三大组件（ Selenium Webdriver, Sel...
selenium初探
selenium初探 selenium简介与安装简介 selenium是一个网站的自动化测试库，但由于其具有大量...
爬虫（七）使用Selenium爬取百度文库word文章
目录前言问题分析 Selenium简介 Selenium安装 Selenium基础知识 Xpath 动手实战 ...
Selenium底层原理
Selenium2简介关于对Selenium的理解 Selenium源码分析之WebDriver Seleniu...
Selenium入门--IDE功能(1)
Selenium IDE安装与简介 Selenium IDE 组件介绍 Selenium IDE 有不同的组件(如...
爬虫：selenium、pyppeteer、playwright
1. Selenium 1.1. Selenium 简介 Selenium是最广泛使用的开源Web UI（用户界面...
selenium和pantomjs学习
Selenium + PhantomJS + python 简单实现爬虫的功能 Selenium 一、简介 sel...
selenium简介
Selenium是什么 •一套软件工具 •开源软件：可以根据需要来增加重构工具的某些功能 •跨平台：linux，w...
Selenium 简介
[TOC] 简介 Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就...

Selenium简介

1. 声明浏览器对象

2.访问页面

3. 查找节点

4. 节点交互

5. 动作链

6. 执行JavaScript

7. 获取节点信息

8. 切换Frame

9. 延时等待

10. 前进和后退

11. Cookies

12. 选项卡管理

13. 异常处理

相关文章

【转】Selenium IDE工具

Selenium Grid简单使用

selenium初探

爬虫（七）使用Selenium爬取百度文库word文章

Selenium底层原理

Selenium入门--IDE功能(1)

爬虫：selenium、pyppeteer、playwright

selenium和pantomjs学习

selenium简介

Selenium 简介

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读