美文网首页爬虫
Scrapy导出Excel By Exporter

Scrapy导出Excel By Exporter

作者: MR_ChanHwang | 来源:发表于2018-03-24 10:40 被阅读0次

    Scrapy导出Excel By Exporter

    作者:黄成

    日期:2018年03月24日10:40

    在Scrapy中实现是一个能将数据以Excel格式导出的Exporter。

    共有3个步骤:

    ①自定义导出exporters方法。

    ②将自定义方法添加至配置文件中。

    ③运行爬虫声明导出格式为自定义格式。

    1. 在项目中创建一个my_exporters.py(与settings.py同级目录),在其中实现ExcelItemExporter,代码如下:
    # -*- coding: utf-8 -*-
    
    from scrapy.exporters import BaseItemExporter
    import xlwt
    
    
    class ExcelItemExporter(BaseItemExporter):
        """
        导出为Excel
        在执行命令中指定输出格式为excel
        e.g. scrapy crawl -t excel -o books.xls
        """
    
        def __init__(self, file, **kwargs):
            self._configure(kwargs)
            self.file = file
            self.wbook = xlwt.Workbook(encoding='utf-8')
            self.wsheet = self.wbook.add_sheet('scrapy')
            self._headers_not_written = True
            self.fields_to_export = list()
            self.row = 0
    
        def finish_exporting(self):
            self.wbook.save(self.file)
    
        def export_item(self, item):
            if self._headers_not_written:
                self._headers_not_written = False
                self._write_headers_and_set_fields_to_export(item)
    
            fields = self._get_serialized_fields(item)
            for col, v in enumerate(x for _, x in fields):
                print(self.row, col, str(v))
                self.wsheet.write(self.row, col, str(v))
            self.row += 1
    
        def _write_headers_and_set_fields_to_export(self, item):
            if not self.fields_to_export:
                if isinstance(item, dict):
                    self.fields_to_export = list(item.keys())
                else:
                    self.fields_to_export = list(item.fields.keys())
            for column, v in enumerate(self.fields_to_export):
                self.wsheet.write(self.row, column, v)
            self.row += 1
    

    解释上述代码如下:

    • 这里使用第三方库xlwt将数据写入Excel文件中。
    • 在构造器方法中创建Workbook对象和Worksheet对象,并初始化用来记录写入行坐标的self.row。
    • 在export_item方法中判断是否存在第一行字段声明,若不存在调用_write_headers_and_set_fields_to_export方法根据item的属性名写入第一行。
    • 在export_item方法中调用基类的_get_serialized_fields方法,获得item所有字段的迭代器,然后调用self.wsheet.write方法将各字段写入Excel表格。
    • finish_exporting方法在所有数据都被写入Excel表格后被调用,在该方法中调用self.wbook.save方法将Excel表格写入Excel文件。
    1. 完成ExcelItemExporter后,在配置文件settings.py中添加如下代码:
    FEED_EXPORTERS={'excel':'example.my_exporters.ExcelItemExporter'}
    

    说明:example是项目名称;my_exporters是文件名;ExcelItemExporter是自定义类名。

    1. 现在可以使用ExcelItemExporter导出数据了,以-t excel为参数重新运行爬虫:
    $ scrapy crawl <spider_name> -t excel -o <file_name>.xls
    

    图所示为爬取完成后在Excel文件中观察到的结果。

    image.png

    如上所示,我们成功地使用ExcelItemExporter将爬取到的数据存入了Excel文件中。

    相关文章

      网友评论

        本文标题:Scrapy导出Excel By Exporter

        本文链接:https://www.haomeiwen.com/subject/tecqcftx.html