美文网首页编程地带
scrapy爬虫数据导出

scrapy爬虫数据导出

作者: MA木易YA | 来源:发表于2018-11-07 17:30 被阅读0次

转换为json

1. 第一种方式——命令行

scrapy crawl dmoz -o items.json

该命令将采用 JSON 格式对爬取的数据进行序列化,生成 items.json 文件。,如果文件内出现乱码可以在后面添加FEED_EXPORT_ENCODING = 'utf-8'进行转换

2. 在pipelines.py里面编辑函数

只是简单介绍一下操作,所以拿之前写的一个练手的scrapy代码做演示,spider文件已经成型,现在主要是在pipelines里面编辑代码做存储用,存入poker_test.json文件

class Poker2Pipeline(object):

    def __init__(self):
        self.file = codecs.open('poker_test.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item


    def spider_closed(self, spider):
        self.file.close()
        

poker_test.json

image.png

3. 与上面的方法异曲同工,只是换了一种思路

在写入文件时要格外注意编码的问题,这里存入poker_test2.json文件,话不多说,上代码

    def process_item(self, item, spider):
        base_dir = os.getcwd()
        filename = base_dir + '/poker_test2.json'
        # 打开json文件,向里面以dumps的方式吸入数据
        # 注意需要有一个参数ensure_ascii=False ,不然数据会直接为utf编码的方式存入比如
        # :“/xe15”
        with codecs.open(filename, 'a', encoding='utf-8') as f:
            line = json.dumps(dict(item), ensure_ascii=False) + '\n'
            f.write(line)
        return item

poker_test2

image.png

存入txt文件

这里演示存入poker.txt文件,数据什么的不要在意,主要是方法方法

    def process_item(self, item, spider):
        base_dir = os.getcwd()
        fiename = base_dir + '/poker.txt'
        with open(fiename, 'a') as f:
            f.write(item['title'] + '\n')
            f.write(item['description'] + '\n')
            # f.write(item['other'] + '\n')
        return item

poker.txt

image.png

相关文章

  • scrapy爬虫数据导出

    转换为json 1. 第一种方式——命令行 该命令将采用 JSON 格式对爬取的数据进行序列化,生成 items....

  • scrapy 快速入门

    安装Scrapy Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存...

  • Pycharm+Scrapy框架运行爬虫糗事百科(无items数

    scrapy爬虫框架 qsbk.py 爬虫代码 import scrapy'''scrapy框架爬虫流程:发送请求...

  • Python-数据爬取

    数据购买 数据公司数据交易所 爬取数据 数据获取数据清洗第三方框架:scrapy、scrapy-redis反爬虫-...

  • 搭建scrapy+es+mysql爬取知乎内容

    Django1.2Scrapy 1.5.1 ElasticSearch6.3.2网站端+爬虫端爬虫(数据入库) 爬...

  • Scrapy笔记

    Scrapy笔记 pip 指定源安装模块 创建Scrapy项目 创建Scrapy爬虫程序 启动Scrapy爬虫 在...

  • Scrapy框架架构

    Scrapy框架架构 Scrapy框架介绍: 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储...

  • Python使用Scrapy框架爬取数据存入CSV文件

    1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析、数据处理、数据存储合为一体...

  • scrapy爬虫

    运行爬虫 scrapy crawl +<爬虫名字>Scrapy的安装:pip install scrapy创建s...

  • 深度爬虫

    scrapy深度爬虫 1.深度爬虫概述2.scrapy Spider实现的什么爬虫3.scrapy CrawlSp...

网友评论

    本文标题:scrapy爬虫数据导出

    本文链接:https://www.haomeiwen.com/subject/wyivxqtx.html