爬虫课程（九）｜豆瓣：Scrapy中items设计及如何把ite

作者: 小怪聊职场 | 来源:发表于2017-11-07 23:34 被阅读987次

一、定义Item

Item是保存爬取到的数据的容器，其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

类似在ORM中做的一样，我们可以通过创建一个scrapy.Item 类，并且定义类型为scrapy.Field 的类属性来定义一个Item。

首先根据需要从book.douban.com/latest?icn=index-latestbook-all获取到的数据对item进行建模。我们需要从book.douban.com中获取书籍的背景图、书籍详情页地址、书籍名称、书籍介绍、书籍页数、书籍价格以及书籍的发布时间。对此，在item中定义相应的字段。编辑 tutorial 目录中的 items.py 文件：

豆瓣读书信息的Item

二、把豆瓣读书的信息写进Item中

第一步，我们把豆瓣读书在列表页的信息写入Item，如下图代码：

把列表页面的书籍信息写入Item

我们发现，列表页的数据非常不全，例如我们需要的书籍页数和书籍价格信息就不在列表页，那么我们就必须去书籍详细页去获取这两个数据。如下图代码：

去详细页获取更多信息

在这两个def中，我们需要注意：在第一个def（parse）在yield出来之后有3个参数，第一个是url，这个url即需要进入的详细页的地址，第二个参数meta是需要把值传到下一个def的对象，第三个参数是callback的值，也就是第二个def（parse_detail）的名称。

最后执行，我们查看得出的结果：

执行爬虫打印出的结果

三、把Item的值传到Item Pipeline

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。

每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。

以下是item pipeline的一些典型应用：

1）清理HTML数据

2）验证爬取的数据(检查item包含某些字段)

3）查重(并丢弃)

4）将爬取结果保存到数据库中

我们获取网站的数据，并且把这些数据保存到Item容器，最后需要通过pipelines把数据存放到数据库中去。那么Item的数据应该怎么传到pipelines里面呢？

第一步：把这个Item yield出去，yield出去之后，这个Item就会进入到pipelines里面去。

yield出Item

第二步：在pipelines编写一个接收Item的class，编写一个process_item（名字是固定的）的方法（带有item参数），同时在settings.py把这个class配置上。如下两张图：

编写一个带process_item def的class

把这个class名称在settings.py中的ITEM_PIPELINES配置上

最后，我们在pipelines的process_item方法上写个断点，查看接收到的item的值，在main.py进行debug，进入到process_item方法时，结果如下，说明这个item值已经进入pipelines管道啦。

item进入pipelines管道

那么，接下来要做的就是利用pipelines，把数据保存到mysql中。这个下篇文章在讲。

网友评论

纯天然_a300:说好的在管道里设置如何获取图片的最小宽高设置呢？

小怪聊职场:@纯天然_a300 肯定呀，不同平台的反爬策略不一样

纯天然_a300:@小怪聊职场楼主呀，我现在遇到在爬取某些网站的时候，遇到一些反爬措施做得特别好的，然后就是模拟登录也登录不了，我也看了您的那篇scrapy+模拟登录知乎抓取数据。但是我爬爬取的网站,在源网站代码的没有发现_xsrf和captcha_type这两个的values值

小怪聊职场:@纯天然_a300

感觉不应该在这篇文章写

小怪聊职场:文章已更新，需要源码的可以加我好友索要。

悟空也烦恼:@小怪聊职场怎么加好友

爬虫课程（九）｜豆瓣：Scrapy中items设计及如何把ite

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫

python爬虫入门看这个就够了

程序员

大数据爬虫Python AI Sql

互联网科技

爬虫专题

python爬虫大数据 ai

爬虫课程（九）｜豆瓣：Scrapy中items设计及如何把ite

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫

python爬虫入门看这个就够了

程序员

大数据 爬虫Python AI Sql

互联网科技

爬虫专题

python爬虫 大数据 ai

大数据爬虫Python AI Sql

python爬虫大数据 ai