Python爬虫实战-带你解析不一样的名人名言网站❤️

作者: 悦悦学Python | 来源:发表于2021-08-10 13:38 被阅读0次

Python爬虫实战-带你解析不一样的名人名言网站❤️
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
Python网络爬虫实战之十一：Scrapy爬虫框架入门介绍
Python网络爬虫实战之十三：Scrapy爬取名侦探柯南漫画集
Python网络爬虫实战之六：静态网页爬取案例实战
Python网络爬虫实战之二：环境部署、基础语法、文件操作
Python网络爬虫实战之一：网络爬虫理论基础

1.输入网址

quotes.toscrape.com/，进入网站首页，观察网页的结构,我们发现网页的内容很清晰.

主要分为：名人名言，作者，标签三个主要字段，同时三个字段的内容为本次提取的内容。

\

2.确定需求，分析网页结构

打开开发者工具，点击networ进行网络数据抓包分析，网站是以get方式进行请求，不需要携带参数，那我们就可以以request请求库中的get()方法，进行模拟请求，需要带上headers请求，模拟浏览器信息验证，防止被网站服务器检测为爬虫请求。

也可以点击开发者工具的最左边小箭头，可以帮助我们快速定位，网页数据在element标签页所在的位置.

3.解析网页结构，提取数据。

请求成功之后，可以开始提取数据啦~，我用的是xpath的解析方法，所以，先来解析xpath页面，点击最左边小箭头，可以帮助我们快速定位数据所，网页数据在element标签页所在的位置.因为网页的请求方式数据以列表的方式逐条排序，所以我们可以先定位整个列表的数据。在通过lxm中html解析器，逐个字段抓取并保存至列表，方便下一步的数据清洗.

4.保存至csv文件.

\

5.源码分享

import requests

from lxml import etree

import csv

url = "https://quotes.toscrape.com/"

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'

}

res = requests.get(url,headers = headers).text

html = etree.HTML(res)

queto_list = html.xpath('//div[@class="col-md-8"]')

lists = []

for queto in queto_list:

# 名言正文

title = queto.xpath('./div[@class="quote"]/span[1]/text()')

# 作者

authuor = queto.xpath('./div[@class="quote"]/span[2]/small/text()')

# 名言标签

tags = queto.xpath('./div[@class="quote"]/div[@class="tags"]/a[@class="tag"]/text()')

# 将数据统一添加进列表中保存

lists.append(title)

lists.append(authuor)

lists.append(tags)

with open("./名人名言.csv",'w',encoding='utf-8',newline='\n') as f:

writer = csv.writer(f)

for i in lists:

writer.writerow(x)

如果没有接触过编程这块的朋友看到这篇博客，发现不懂的或想要学习Python的，可以直接留言+私我鸭【非常感谢你的点赞、收藏、关注、评论，一键四连支持】

网友评论

本文标题：Python爬虫实战-带你解析不一样的名人名言网站❤️

本文链接：https://www.haomeiwen.com/subject/cysovltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python爬虫实战-带你解析不一样的名人名言网站❤️

5.源码分享

相关文章