前言
在爬取的时候,我们有的时候会遇到一些对数据进行加密的网站,如果只是ajax加密,我们可以通过开发者工具检查请求参数,发送请求进行处理,但如果是JS加密,我们在用这种方式就显得有些麻烦。通常这时我们会使用selenium进行爬取我们所需要的数据。
selenium
首先,先放官网文档:https://selenium-python.readthedocs.io/
然后,感觉一些大神的翻译(中文文档):https://selenium-python-zh.readthedocs.io/en/latest/getting-started.html
selenium 是一个基于浏览器的自动化测试工具。
可以对支持的浏览器发起基于程序代码/工作的操作自动化执行,主要应用于 web 自动化测试维护
selenium 需要和浏览器配合使用
selenium 只是一个自动化测试工具,可以操作浏览器的各种行为,需要配合浏览器一起进行操作使用
通常,我们会使用selenium + chrome + headless进行相关操作
安装selenium使用 pip install selenium 这条命令
安装Chrome的方式:
Chrome镜像下载地址: http://npm.taobao.org/mirrors/chromedriver/
(查看自己电脑上的Chrome浏览器版本,下载相对应的版本)
然后建立一个chromedriver的文件夹,将下载好之后的镜像解压后,放在该文件夹下
然后进行path路径配置(也可以不配置)
检验
将上述操作完成之后,我们便可以进行开发了,在此之前先进行测试一下:
from selenium import webdriver
# 下载好之后的Chrome的位置
browser = webdriver.Chrome('C:\chromedriver\chromedriver.exe')
# 访问百度
browser.get('http://www.baidu.com/')
# 关闭
browser.close()
若是能正常的打开百度的页面,也就代表这我们的操作成功了

网友评论