（四）爬虫-入门2

作者: 迢迢0515 | 来源:发表于2018-12-27 14:32 被阅读0次

（四）爬虫-入门2
Python爬虫入门
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python爬虫入门（urllib+Beautifulsoup）
一些python个人技术网站整理
零基础小白如何快速入门python爬虫？我用这篇文章告诉你
爬虫入门系列（六）：正则表达式完全指南（下）
爬虫入门（四）：urllib2
爬虫——Web Scraper
网页的下载

接上次的程序。上次的程序可以做到将一个页面上的图片爬取下来，但是这种网站通常有多页，需要将每页的图片都爬下来。

相关工具及版本：

(1) Selenium 3.141。Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。基本上它可以模拟真实用户的所有操作。

(2) Chrome浏览器驱动 2.45。注意这个驱动要对应自己chrome浏览器的版本，可以去https://sites.google.com/a/chromium.org/chromedriver/（需要over the wall）查找与自己浏览器对应的版本并且下载。安装过程很麻烦🙃🙃🙃。本来是要用phantomjs的，但是最新的selenium已经不支持phantomjs了：Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead。

例子：爬取https://ibaotu.com/ui/15-91803-0-0-0-1.html的ui所有页面的图片。

代码在上一个例子上进行改造，主要改造点在于：

（1）模拟点击下一页的操作，需要使用Selenium的一个方法来执行js代码。

driver.find_element_by_class_name("next").click()

在这个页面中，下一页的按钮都有一个标签class = “next”，通过找到这个标签，然后点击下一页。

（2）稍微修改一下逻辑部分

driver = webdriver.Chrome() #指定使用的浏览器，初始化webdrive