准备工作
selenium是一个自动化的测试工具。利用它可以驱动浏览器执行我们指定的特定的动作。例如:点击、下拉等操作。也可以获得浏览器的源代码。也就是:所见即所爬。主要的用在一些通过动态加载的页面的抓取特别方便的。下面我们就开始准备环境吧。
通过Python来调用的话,你需要安装一下selenium的包。
pip install selenium
装了之后可以去检查一下
python
>>> import selenium
>>> #如果没有报错的话就说明下载成功
同时你也需要安装一个浏览器的驱动在Python的解释器的目录中。
我用的是Chrome浏览器。下载的链接地址如下:
地址 'https://chromedriver.storage.googleapis.com/index.html'
选择对应的版本就可以了。
下载之后将它放在Python的解释器同一个目录中。
caution:也可以将Chrome的驱动程序放置在其他的位置。这样的话你需要在每次创建浏览器对象的时候,指定一下浏览器驱动所在的位置。这样比较麻烦。你每次还要记住你放置驱动的位置。我们通过直接将浏览器驱动放置在Python解释器的同级目录中,这样就可以直接调用。不用去额外指定。
基本使用
selenium支持很多的浏览器对象,我现在只使用的是Chrome的作为例子。
talk is cheap,code time!
from selenium import webdriver
browser = webdriver.Chrome() #谷歌浏览器对象
browser = webdriver.Firefox() #火狐浏览器对象
browser = webdriver.Edge() #edge浏览器对象
browser = webdriver.Phantoms() #无界面浏览器对象
browser = webdriver.Safari() #Safari浏览器对象
我们这样可以建立一个浏览器对象,这样我们可以通过这个对象来调用其他的方法。让其执行各个动作模拟浏览器的操作。
网友评论