项目示例:糗事百科段子爬取并基于终端进行持久化存储
1)创建项目
2)编写爬虫
3)修改配置
4)执行程序
基于终端指令的持久化存储
要求:只可以将 parse 方法的返回值存储到本地的文本文件中
注意:持久化存储对应的文本文件的类型只可以为:'json', 'csv' 等指定类型
指令:scrapy crawl spidername -o filepath
好处:简介高效便捷
缺点:局限性比较强(数据只可以存储到指定后缀的文本文件中)
基于管道的持久化存储
1)数据解析(参照上文)
2)在 item 类中定义相关的属性(items.py:数据结构模板文件,定义数据属性)
3)将解析的数据封装存储到 item 类型的对象
4)将 item 类型的对象提交给管道进行持久化存储的操作
5)在管道类的 process_item 中要将其接受到的 item 对象中存储的数据进行持久化存储操作
6)在配置文件中开启管道
- 程序执行
- 好处:通用性更强
补充
如果最终需要将爬取到的数据值一份存储到磁盘文件,一份存储到数据库中,则应该如何操作 scrapy?
上述代码中,字典中的两组键值分别表示会执行管道文件中对应的两个管道类中的 process_item 方法,实现两种不同形式的持久化操作。
知识小结
1)管道文件中一个管道类对应的是将数据存储到一种平台
2)爬虫文件提交的item只会给管道文件中第一个被执行的管道类接受
3)process_item 中的 return item 表示将 item 传递给下一个即将被执行的管道类
网友评论