Scrapy Item Loaders

作者: kakarotto | 来源:发表于2018-12-04 18:36 被阅读3次

Scrapy Item Loaders
Scrapy Item Loaders使用方法
Python Scrapy 爬虫教程之对象加载器 Item Lo
python scrapy 模拟登录(手动输入验证码)
python+scrapy爬取应用商店数据
Scrapy爬虫入门教程七 Item Loaders（项目加载器
scrapy中item的处理技巧
Item容器
python 学习 DAY18笔记
python scrapy

最近在搞通用爬虫，这里记录一下Item Loaders。

概述

Items 提供保存抓取数据的容器，而 Item Loaders提供的是填充容器的机制

作用

Item Loaders提供了一种便捷的方式，填充抓取到的 Items
Items Loaders提供了更便捷的API，可以分析原始数据并对Item进行赋值

使用

ItemLoader接受参数：

image.png

可以接受一个selector，也可以接受一整个response。

from scrapy.contrib.loader import ItemLoader
from myproject.items import Product

def parse(self, response):
    l = ItemLoader(item=Product(), response=response)
    l.add_xpath('name', '//div[@class="product_name"]')
    l.add_xpath('name', '//div[@class="product_title"]')
    l.add_xpath('price', '//p[@id="price"]')
    l.add_css('stock', 'p#stock]')
    l.add_value('last_updated', 'today') # you can also use literal values
    demo_item = l.load_item()
    return demo_item

以上代码，填充完的demo_item每一项的value都是一个list。

因为之前demo_item中的数据都是list，但是一般我们需要自己处理数据，所以可在item.py中，这样操作：

from scrapy.contrib.loader.processor import Join, MapCompose, TakeFirst
class NewsItem(Item):
    """
    input_processor 当itme这个字段的值传递进来时，在传递进来的值上做预处理
    TakeFirst  取列表第一个元素
    MapCompose 连续调用两个函数，或者传递任意多的函数
    """
    post_title = Field(
        input_processor=Join(),
        output_processor=TakeFirst()
    )

input_processor : 当itme这个字段的值传递进来时，在传递进来的值上做预处理。

output_processor : 当itme这个字段的值传递走时，在原值上做处理。

Scrapy 内置的一些常用的处理器

Identity ：最简单的处理器，它什么都不做。它返回原始值不变。它不接收任何构造函数参数，也不接受Loader上下文。
从接收的值返回第一个非null /非空值，因此它通常用作单值字段的输出处理器。它不接收任何构造函数参数，也不接受Loader上下文
Join ：返回与构造函数中给定的分隔符连接的值，默认为。它不接受Loader上下文
Compose ：组合处理功能，该处理器的每个输入值都被传递给第一个函数，并且该函数的结果被传递给第二个函数，依此类推，直到最后一个函数返回该处理器的输出值。默认情况下，停止处理None值。可以通过传递关键字参数来更改此行为stop_on_none=False
MapCompose ：连续调用两个或多个函数，可以调用自定义的函数

重写ItemLoader

我们也可以重写ItemLoader，

class NewsLoader(ItemLoader):
    default_output_processor = TakeFirst
    name_in = MapCompose(unicode.title)
    name_out = Join()
    price_in = MapCompose(unicode.strip)
   .
   .
   .

输入处理器使用_in后缀声明，而输出处理器使用_out后缀声明
还可以使用ItemLoader.default_input_processor和 ItemLoader.default_output_processor属性声明默认的输入/输出处理器。

重写ItemLoader的意义在于：
当我们在itme.py中定义了很多字段时，需要对每个字段做同样的处理，这时候如果每个字段都写处理逻辑就会很麻烦，不如直接在初始化ItemLoader时就写好处理逻辑，但是对于各别字段又不需要初始化时定义的逻辑，可以在item.py中重载，即可。

输入和输出处理器的优先顺序如下：

Item Loader特定于字段的属性：field_in和field_out（最优先）
字段元数据（input_processor和output_processor键）
Item Loader默认值：ItemLoader.default_input_processor()和ItemLoader.default_output_processor()（最少优先级）

如果文档对您有帮助，请点个赞，关注作者，持续更新更多骚操作指南~~
如有问题请评论留言。

网友评论

程序员

本文标题：Scrapy Item Loaders

本文链接：https://www.haomeiwen.com/subject/bsvmcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Scrapy Item Loaders

概述

作用

使用

input_processor : 当itme这个字段的值传递进来时，在传递进来的值上做预处理。

output_processor : 当itme这个字段的值传递走时，在原值上做处理。

Scrapy 内置的一些常用的处理器

重写ItemLoader

相关文章