今天带给大家的是一款爬虫神器-selenium,使用该库可以对付绝大部分的网站,不论这网站反爬策略多么的厉害,在selenium面前经常失效。
selenium是什么?
官网中介绍selenium
Selenium automates browsers. That's it! What you do with that power is entirely up to you. Primarily, it is for automating web applications for testing purposes, but is certainly not limited to just that. Boring web-based administration tasks can (and should!) also be automated as well.
Selenium自动化浏览器。 你用这种力量做什么完全取决于你。首先,它是为了测试目的自动化web应用程序,但是当然不仅限于此。 基于Web的管理任务也可以(也应该)自动化。
为什么selenium好用?
一般的写爬虫的方法是用python脚本直接对目标网站进行访问,而且只对目标数据进行采集,访问速度很快,这样目标网站很容易就识别出你是机器人,然后把你封锁了~~
而
使用selenium写爬虫,python脚本操控浏览器进行访问,也就是说python脚本和目标网站之间多了个浏览器的操作,这样的行为更像是人类行为。这样很多难爬的网站也可以轻而易举的抓数据了。
使用selenium的准备
selenium支持IE,Chrome,Firefox多个浏览器,我习惯用Firefox,而且我没在其他浏览器使用成功过,所以建议大家跟我一起用Firefox吧。
火狐浏览器各种版本下载地址
http://ftp.mozilla.org/pub/firefox/releases/
首先要确保你自己安装了Firefox浏览器比较新的版本,现在最新的是52。安装好firebug,下载网址为https://www.mozilla.org/en-US/firefox/developer/
再安装firepath,安装网址https://addons.mozilla.org/en-US/firefox/addon/firepath/
然后再安装firefox36,经过测试selenium对新版本firefox支持的不好,经常出问题,为了避免初学者遇到困难,建议大家安装firefox36,勿谓言之不预。(下载资源请先关注公众号:大邓带你玩转python,公众号回复“火狐36”,即可获得项目源码和火狐浏览器下载资源)
selenium基本知识
from selenium import webdriver
from bs4 import BeautifulSoup
初始化浏览器
driver = webdriver.Firefox()
打开某个网址
driver.get(url)
如果网站需要输入登录账号密码
这里用到firepath找到目标位置的xpath
找到输入账号框,清除框内信息,再输入你的账号
driver.find_element_by_xpath(xpath).clear()
driver.find_element_by_xpath(xpath).send_keys("你的账号")
找到输入密码框,清除框内信息,再输入你的密码
driver.find_element_by_xpath(xpath).clear()
driver.find_element_by_xpath(xpath).send_keys("你的密码")
定位“点击登录”框的位置的xpath,执行登录
driver.find_element_by_xpath(xpath).click()
访问你想爬的网页的网址
driver.get(url)
获取该网页的源码
html = driver.page_source
BeautifulSoup定位标签
bsObj = BeautifulSoup(html,‘html.parser’)
再之后如何操作很简单,我就不写了啊,视频里有
xpath如何获得呢?
首先确保你已经安装好firefox新版本,并且安装好插件firebug和firepath。
然后,请看下图学习
首先点击图中1,打开firebug
然后,点击图中2,打开firepath
再然后,点击图中的3,箭头
再然后,点击目标位置,例如图中的4为账号输入框
最后,在图中5复制xpath的值
任何元素的定位都重复上述步骤
代码
运行效果
你看屏幕自动弹出一个浏览器,并且浏览器自己自动翻页浏览,很诡异,就像电脑被一个透明人操控似的。
截图看不出效果建议大家观看视频
【python爬虫】之selenium的运用_腾讯视频
关注公众号:大邓带你玩转python
在公众号后台回复“火狐36”,即可获得项目源码和火狐36的下载资源
网友评论