Python爬虫系列（二）Quotes to Scrape(谚语

作者: 致Great | 来源:发表于2017-04-17 15:13 被阅读564次

Python爬虫系列（二）Quotes to Scrape(谚语
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍
Python网络爬虫实战之十三：Scrapy爬取名侦探柯南漫画集
Python网络爬虫实战之六：静态网页爬取案例实战
Python网络爬虫实战之二：环境部署、基础语法、文件操作
Python网络爬虫实战之一：网络爬虫理论基础

接下来自己会写一些关于爬虫实战的内容，把所学的知识加以运用。这篇文章是关于一个英文谚语网站的谚语爬取，并输出结果。

这个网站大致有10页谚语，所以是一个关于selenium使用的例子，大致思路使用webrdriver获取“下一页”按钮，获取每一页源码，输入所要的谚语

使用到的模块或工具（这些要提前准备好）：

1、 BeautifulSoup

2、selenium

3、time

4、driver=webdriver.Chrome("G:/chromedriver/chromedriver.exe")（我使用的Chrome驱动， PhantomJS也可以）

（ps：初期学习爬虫的拾遗与总结这里有介绍）

目标网站：Quotes to Scrape

目标网站

1、打开Chrom的开发者工具，找到谚语所在的位置

谚语所在位置

2、找到下一页按钮Next

next按钮

3、把所要提取谚语的位置和下一页按钮位置确定之后，下面所写的代码：

加了详细备注，看起来应该不算困难

#xpath和自动化的结合使用

#from lxml import etree

from bs4 import BeautifulSoup

from selenium import webdriver

import time

#加载驱动

driver=webdriver.Chrome("G:/chromedriver/chromedriver.exe")

#driver = webdriver.PhantomJS()#这个我没试

#打开目标网址并获取源码

driver.get('http://quotes.toscrape.com/')

soup=BeautifulSoup(driver.page_source,'lxml')

i=0

while True:

try:

#找到并获取第一页的谚语位置span集合:items，点击下一页之后会变成下一页的谚语集合

items=soup.find_all('span',class_='text')

#打印获取到第一页的谚语

for item in items:

print('谚语'+str(i)+':')

print(item.text)

i+=1

#获取下一页next按钮

elem=driver.find_element_by_xpath('//ul[@class="pager"]/li[@class="next"]/a')

elem.click()

#停顿2秒，页面观察点击下一页的效果

time.sleep(2)

#获取下一页源码

soup=BeautifulSoup(driver.page_source,'lxml')

except:

break

4、下面是结果：

结果图

Python爬虫系列（二）Quotes to Scrape(谚语
接下来自己会写一些关于爬虫实战的内容，把所学的知识加以运用。这篇文章是关于一个英文谚语网站的谚语爬取，并输出结果...
Python网络爬虫实战之十四：Scrapy结合scrapy-s
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之十三：Scrapy爬取名侦探柯南漫画集
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之六：静态网页爬取案例实战
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之二：环境部署、基础语法、文件操作
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之一：网络爬虫理论基础
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...

Python爬虫系列（二）Quotes to Scrape(谚语

使用到的模块或工具（这些要提前准备好）：

目标网站：Quotes to Scrape

1、打开Chrom的开发者工具，找到谚语所在的位置

2、找到下一页按钮Next

3、把所要提取谚语的位置和下一页按钮位置确定之后，下面所写的代码：

4、下面是结果：

相关文章

Python爬虫系列（二）Quotes to Scrape(谚语

Python网络爬虫实战之十四：Scrapy结合scrapy-s

Python网络爬虫实战之七：动态网页爬取案例实战 Seleni

Python网络爬虫实战之八：动态网页爬取案例实战 Seleni

Python网络爬虫实战之九：Selenium进阶操作与爬取京东

Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍

Python网络爬虫实战之十三：Scrapy爬取名侦探柯南漫画集

Python网络爬虫实战之六：静态网页爬取案例实战

Python网络爬虫实战之二：环境部署、基础语法、文件操作

Python网络爬虫实战之一：网络爬虫理论基础

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python 入门

我爱编程

Python和爬虫

程序员

首页投稿（暂停使用，暂停投稿）

生活不易我用python

Python3自学爬虫实战

Python爬虫