美文网首页Python爬虫python爬虫入门看这个就够了程序员
爬虫课程(九)|豆瓣:Scrapy中items设计及如何把ite

爬虫课程(九)|豆瓣:Scrapy中items设计及如何把ite

作者: 小怪聊职场 | 来源:发表于2017-11-07 23:34 被阅读987次

    一、定义Item

    Item是保存爬取到的数据的容器,其使用方法和python字典类似,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

    类似在ORM中做的一样,我们可以通过创建一个scrapy.Item 类,并且定义类型为scrapy.Field 的类属性来定义一个Item。

    首先根据需要从book.douban.com/latest?icn=index-latestbook-all获取到的数据对item进行建模。我们需要从book.douban.com中获取书籍的背景图、书籍详情页地址、书籍名称、书籍介绍、书籍页数、书籍价格以及书籍的发布时间。 对此,在item中定义相应的字段。编辑 tutorial 目录中的 items.py 文件:

    豆瓣读书信息的Item

    二、把豆瓣读书的信息写进Item中

    第一步,我们把豆瓣读书在列表页的信息写入Item,如下图代码:

    把列表页面的书籍信息写入Item

    我们发现,列表页的数据非常不全,例如我们需要的书籍页数和书籍价格信息就不在列表页,那么我们就必须去书籍详细页去获取这两个数据。如下图代码:

    去详细页获取更多信息

    在这两个def中,我们需要注意:在第一个def(parse)在yield出来之后有3个参数,第一个是url,这个url即需要进入的详细页的地址,第二个参数meta是需要把值传到下一个def的对象,第三个参数是callback的值,也就是第二个def(parse_detail)的名称。

    最后执行,我们查看得出的结果:

    执行爬虫打印出的结果

    三、把Item的值传到Item Pipeline

    当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。

    每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或是被丢弃而不再进行处理。

    以下是item pipeline的一些典型应用:

    1)清理HTML数据

    2)验证爬取的数据(检查item包含某些字段)

    3)查重(并丢弃)

    4)将爬取结果保存到数据库中

    我们获取网站的数据,并且把这些数据保存到Item容器,最后需要通过pipelines把数据存放到数据库中去。那么Item的数据应该怎么传到pipelines里面呢?

    第一步:把这个Item yield出去,yield出去之后,这个Item就会进入到pipelines里面去。

    yield出Item

    第二步:在pipelines编写一个接收Item的class,编写一个process_item(名字是固定的)的方法(带有item参数),同时在settings.py把这个class配置上。如下两张图:

    编写一个带process_item def的class 把这个class名称在settings.py中的ITEM_PIPELINES配置上

    最后,我们在pipelines的process_item方法上写个断点,查看接收到的item的值,在main.py进行debug,进入到process_item方法时,结果如下,说明这个item值已经进入pipelines管道啦。

    item进入pipelines管道

    那么,接下来要做的就是利用pipelines,把数据保存到mysql中。这个下篇文章在讲。

    相关文章

      网友评论

      • 纯天然_a300:说好的在管道里设置如何获取图片的最小宽高设置呢?:joy: :joy:
        小怪聊职场:@纯天然_a300 肯定呀,不同平台的反爬策略不一样
        纯天然_a300:@小怪聊职场 楼主呀,我现在遇到在爬取某些网站的时候,遇到一些反爬措施做得特别好的,然后就是模拟登录也登录不了,我也看了您的那篇scrapy+模拟登录知乎抓取数据。但是我爬爬取的网站,在源网站代码的没有发现_xsrf和captcha_type这两个的values值:joy: :joy:
        小怪聊职场:@纯天然_a300 :joy::joy:感觉不应该在这篇文章写
      • 小怪聊职场:文章已更新,需要源码的可以加我好友索要。
        悟空也烦恼:@小怪聊职场 怎么加好友

      本文标题:爬虫课程(九)|豆瓣:Scrapy中items设计及如何把ite

      本文链接:https://www.haomeiwen.com/subject/kvirmxtx.html