名人名言数据练习

名人名言数据练习

作者: 李_佳兴 | 来源:发表于2018-07-04 00:15 被阅读0次

名人名言数据练习
实验报告
作业 - 草稿
2018-10-25 数据库基础
压住鲁迅的棺材板儿
如何正确收集素材
读书笔记分享
【练习笔记】刻意练习写作
秦璐--数据分析师22--用pandas进行数据分析
spark第二天作业

1、实验目的

名人名言数据练习，学习用scrapy框架编写爬虫代码采集数据。

2、实验过程

（1）、新建spider

进入想要存储爬虫代码的目录后，shift+鼠标右键打开命令行，输入scrapy startproject quotes，建立了一个爬虫项目，进入项目后，在spiders目录下新建python文件quotes.py，在此文件中编写爬虫代码。此时，项目结构为：

quotes1.png

（2）、定义item

quotes2.png

分析格言内容，需要获取四个字段，分别为内容（content），作者（author），关于作者（about）和标签（tags）。所以item.py文件为：

quotes3.png

（3）、分析页面结构

打开http://quotes.toscrape.com/，按F12进入开发者模式，分析网页结构，发现格言列表为

quotes4.png
，每一个类为quote的div标签包括一条格言。每一条格言的内容结构为：

quotes5.png
格言的content的xpath为‘./span[@class="text"]’，author的xpath为‘.//small[@class="author"]’，about的xpath为‘.//a[contains(text(),"(about)")]’，tags的xpath为‘.//a[@class="tag"]’。

（4）、编写爬虫文件

每爬取完一页，进入下一页继续爬取，直到全部爬取完。
quotes.py代码如下：

code.png

3、爬取结果

在爬虫项目根目录下，打开命令行，输入scrapy crawl quotes -o quotes.json，爬取结果会保存在quotes.json文件里。部分爬取结果截图：

result.png

4、遇到的问题：

第一次爬取的结果双引号被转为\u201c，在settings.py中添加FEED_EXPORT_ENCODING = 'utf-8'后，输出正常。

相关文章

名人名言数据练习
1、实验目的名人名言数据练习，学习用scrapy框架编写爬虫代码采集数据。 2、实验过程（1）、新建spide...
实验报告
实验名称：关于名人名言的数据抓取一、实验目的：了解网络数据抓取的基本流程，搭建虚拟开发环境。二、实验内容： 1...
作业 - 草稿
语文 ①摘抄第3期十句名人名言 ②练习一张数学 ①练习一张英语 ①一遍过 P30第三题 P52第二题 P57...
2018-10-25 数据库基础
练习题数据库练习题.png数据库练习题3.png数据库练习题2.png
压住鲁迅的棺材板儿
名人名言界的大拿，鲁迅先生告诫我们：“网上95%的名人名言都是瞎掰，包括这句。” 名人名言造假的重灾区，非我浙江...
如何正确收集素材
素材分类：金句（段子，名人名言等），人物（名人等），故事/案例/数据，新闻事件/图片视频，排版等素材来源： 1...
读书笔记分享
名人名言
【练习笔记】刻意练习写作
刻意练习写作从这几点做起： 1.复述式写作法，仿写自己喜欢的文章，仿写金句。 2.背诵成语，摘抄名人名言。哪怕每天...
秦璐--数据分析师22--用pandas进行数据分析
数据为网络抓取的数据分析师的招聘薪资作为练习数据，本文主要内容是针对练习数据进行数据读取，数据概述，数据清洗和整理...
spark第二天作业
基站数据分析案例 [TOC] 本节任务场景解读练习数据维度分析教学目标使用案例练习Spark算子通过基站数据...

网友评论

本文标题：名人名言数据练习

本文链接：https://www.haomeiwen.com/subject/cvgjuftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|名人名言数据练习|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！