糗事百科段子爬取

糗事百科段子爬取

作者: 汪小鱼 | 来源:发表于2021-10-24 15:30 被阅读0次

项目示例：糗事百科段子爬取并基于终端进行持久化存储

1）创建项目

2）编写爬虫

3）修改配置

4）执行程序

基于终端指令的持久化存储
要求：只可以将 parse 方法的返回值存储到本地的文本文件中
注意：持久化存储对应的文本文件的类型只可以为：'json', 'csv' 等指定类型
指令：scrapy crawl spidername -o filepath
好处：简介高效便捷
缺点：局限性比较强(数据只可以存储到指定后缀的文本文件中)

基于管道的持久化存储
1）数据解析(参照上文)

2）在 item 类中定义相关的属性(items.py：数据结构模板文件，定义数据属性)

3）将解析的数据封装存储到 item 类型的对象

4）将 item 类型的对象提交给管道进行持久化存储的操作

5）在管道类的 process_item 中要将其接受到的 item 对象中存储的数据进行持久化存储操作

6）在配置文件中开启管道

程序执行

好处：通用性更强

补充
如果最终需要将爬取到的数据值一份存储到磁盘文件，一份存储到数据库中，则应该如何操作 scrapy？

上述代码中，字典中的两组键值分别表示会执行管道文件中对应的两个管道类中的 process_item 方法，实现两种不同形式的持久化操作。

知识小结
1）管道文件中一个管道类对应的是将数据存储到一种平台
2）爬虫文件提交的item只会给管道文件中第一个被执行的管道类接受
3）process_item 中的 return item 表示将 item 传递给下一个即将被执行的管道类

相关文章

网友评论

本文标题：糗事百科段子爬取

本文链接：https://www.haomeiwen.com/subject/laxfoltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|糗事百科段子爬取|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！