美文网首页
名人名言数据练习

名人名言数据练习

作者: 李_佳兴 | 来源:发表于2018-07-04 00:15 被阅读0次

1、实验目的

名人名言数据练习,学习用scrapy框架编写爬虫代码采集数据。

2、实验过程

(1)、新建spider

进入想要存储爬虫代码的目录后,shift+鼠标右键打开命令行,输入scrapy startproject quotes,建立了一个爬虫项目,进入项目后,在spiders目录下新建python文件quotes.py,在此文件中编写爬虫代码。此时,项目结构为:

quotes1.png
(2)、定义item
quotes2.png

分析格言内容,需要获取四个字段,分别为内容(content),作者(author),关于作者(about)和标签(tags)。所以item.py文件为:


quotes3.png
(3)、分析页面结构

打开http://quotes.toscrape.com/,按F12进入开发者模式,分析网页结构,发现格言列表为

quotes4.png
,每一个类为quote的div标签包括一条格言。每一条格言的内容结构为:
quotes5.png
格言的content的xpath为‘./span[@class="text"]’,author的xpath为‘.//small[@class="author"]’,about的xpath为‘.//a[contains(text(),"(about)")]’,tags的xpath为‘.//a[@class="tag"]’。
(4)、编写爬虫文件

每爬取完一页,进入下一页继续爬取,直到全部爬取完。
quotes.py代码如下:


code.png

3、爬取结果

在爬虫项目根目录下,打开命令行,输入scrapy crawl quotes -o quotes.json,爬取结果会保存在quotes.json文件里。部分爬取结果截图:


result.png

4、遇到的问题:

第一次爬取的结果双引号被转为\u201c,在settings.py中添加FEED_EXPORT_ENCODING = 'utf-8'后,输出正常。

相关文章

  • 名人名言数据练习

    1、实验目的 名人名言数据练习,学习用scrapy框架编写爬虫代码采集数据。 2、实验过程 (1)、新建spide...

  • 实验报告

    实验名称:关于名人名言的数据抓取 一、实验目的:了解网络数据抓取的基本流程,搭建虚拟开发环境。 二、实验内容: 1...

  • 作业 - 草稿

    语文 ①摘抄第3期 十句名人名言 ②练习一张 数学 ①练习一张 英语 ①一遍过 P30第三题 P52第二题 P57...

  • 2018-10-25 数据库基础

    练习题数据库练习题.png数据库练习题3.png数据库练习题2.png

  • 压住鲁迅的棺材板儿

    名人名言界的大拿,鲁迅先生告诫我们:“网上95%的名人名言都是瞎掰,包括这句。” ​名人名言造假的重灾区,非我浙江...

  • 如何正确收集素材

    素材分类: 金句(段子,名人名言等),人物(名人等),故事/案例/数据,新闻事件/图片视频,排版等 素材来源: 1...

  • 读书笔记分享

    名人名言

  • 【练习笔记】刻意练习写作

    刻意练习写作从这几点做起: 1.复述式写作法,仿写自己喜欢的文章,仿写金句。 2.背诵成语,摘抄名人名言。哪怕每天...

  • 秦璐--数据分析师22--用pandas进行数据分析

    数据为网络抓取的数据分析师的招聘薪资作为练习数据,本文主要内容是针对练习数据进行数据读取,数据概述,数据清洗和整理...

  • spark第二天作业

    基站数据分析案例 [TOC] 本节任务 场景解读练习数据维度分析 教学目标 使用案例练习Spark算子通过基站数据...

网友评论

      本文标题:名人名言数据练习

      本文链接:https://www.haomeiwen.com/subject/cvgjuftx.html