爬虫课程（十）｜豆瓣：通过Pipeline保存数据到json文件

作者: 小怪聊职场 | 来源:发表于2017-11-09 23:30 被阅读991次

爬虫课程（十）｜豆瓣：通过Pipeline保存数据到json文件
Scrapy输出中文保存中文
WebMagic学习(三)之Pipeline保存结果
Python爬虫中Scrapy下操作pipeline.py文件
Android JSON的简单处理
json文件操作及异常捕获
2018-07-26 python学习json文件
Python爬虫解析json遇到一类JSONDecodeErro
【爬虫+可视化】Python爬取疫情数据，并做可视化展示
Python 保存读取json数据

在上一个课程爬虫课程（九）｜Scrapy中items设计及如何把item传给Item Pipeline 中，我们知道了怎么把Item的值传给Pipeline管道，那么这篇文章我们就来介绍下怎么通过Pipeline把数据保存起来。

一、通过Pipeline把数据保存到Json文件

我使用的方法是调用scrapy提供的json export导出json文件，实际上scrapy.exporters提供了导出多个文件的方法，当我们去exporters.py源码查看是，我们发现它提供了8中导出文件的方式，如下图，我们这里只举例保存json格式。

exporters支持导出8中不同格式的文件

第一步，先到Pipeline文件编写一个保存json文件的Pipeline，如下图片：

编写Pipeline

第二步，把这个DataSubmitJsonFilePipeline配置到settings中，如下图：

settings

第三步，执行douban_book爬虫。

执行

最后，生成了doubanBook.json文件（默认格式是一行，我使用JSON Parser进行了格式化）。

doubanBook.json

二、通过Pipeline把数据保存到MYSQL数据库

第一步，先创建一个数据库spider_db，新建一个表tb_douban_book，并把对应的数据表字段增加上去，如下图，ps：如果有对mysql不了解的，可以留言告诉我，我再决定要不要写一篇文章来介绍下mysql的使用。

新建tb_douban_book表

第二步，编写一个插入数据库数据的Pipeline，如下图：

插入数据库的Pipeline

第三步，把这个DataSubmitMysqlPipeline配置到settings中，如下图：

配置settings

最后，执行douban_book爬虫，查看数据库的结果，所有的数据都成功插入到mysql数据表中。

数据入库

三、对上面数据插入MYSQL数据库的说明

我们知道上面的方法是通过同步的方式把Item中的数据插入到MYSQL数据库中，然后在实际应用中，为了能够更快速度地响应数据插入的请求，我们都是采用异步的方式把数据插入MYSQL数据库。

关于使用数据库连接池和异步的方式插入数据库的使用，我们会在后面的课程中讲解。

爬虫课程（十）｜豆瓣：通过Pipeline保存数据到json文件
在上一个课程爬虫课程（九）｜Scrapy中items设计及如何把item传给Item Pipeline 中，我们知...
Scrapy输出中文保存中文
scrapy在保存json文件时容易乱码 settings.py文件改动： pipeline.py文件改动：
WebMagic学习(三)之Pipeline保存结果
爬虫获取的数据，如何进行展示或者保存？WebMagic用于保存结果的组件叫做Pipeline。WebMagic有许...
Python爬虫中Scrapy下操作pipeline.py文件
继续学习Python下的scrapy爬虫本次试验，尝试通过python爬虫中的管道文件来保存数据，爬虫代码如下：...
Android JSON的简单处理
JSON(JavaScript Object Notation)是一种数据交换格式。保存数据到JSON文件中创...
json文件操作及异常捕获
json文件数据本地化：将数据保存到本地文件中 json文件（文本），就是文件后缀是.json的文件。内容必须是...
2018-07-26 python学习json文件
数据本地化: 将数据保存到本地文件中(文本、json、数据库) json文件(文本)，就是文件后缀是.json的文...
Python爬虫解析json遇到一类JSONDecodeErro
最近老是和json打交道，作为通过键值对保存数据的有效方式，json确实很好用，今天写一个爬虫的时候，需要提取标...
【爬虫+可视化】Python爬取疫情数据，并做可视化展示
知识点爬虫基本流程 json requests 爬虫当中发送网络请求 pandas 表格处理 / 保存数据 p...
Python 保存读取json数据
1. python 保存json数据 2. python 读取文件中的json数据

网友评论

f285644351d3:pymysql.err.OperationalError: (2003, "Can't connect to MySQL server on '127.0.0.1' ([WinError 10061] 由于目标计算机积极拒绝，无法连接。)")
存在这个我问题，请问是什么原因呢？
pipelines.py 如下
import pymysql
import pymysql.cursors
#设置字符集，防止编码参数出错
import sys
import imp
imp.reload(sys)

# 提交数据到mysql
class DataSubmitMySQLPipeline(object):
def __init__(self):
# 填写数据库用户名、数据库名、数据库用户密码、数据库url
self.conn = pymysql.connect(user='root', db='spider_db', passwd='root',
host='127.0.0.1',charset="utf8", use_unicode=True)

self.cursor = self.conn.cursor()

def process_item(self, item, spider):
insert_sql = """
insert into a_test(title, url)
values(%s,%s)
"""
self.cursor.execute(insert_sql, (item["title"], item["url"]))
self.conn.commit()

f285644351d3:@小怪聊职场可能是这一步弄错了
"""第一步，先创建一个数据库spider_db，新建一个表tb_douban_book，并把对应的数据表字段增加上去，如下图，"""
python3 mysql数据库具体怎么设置能讲讲吗
我一直在尝试pymysql，但一直出错

小怪聊职场:@火车声隆隆没连上数据库吧

小怪聊职场:增加把微博的信息保存到MySQL数据库，https://github.com/huangtao1208/scrapy_spider

fcb7b1dcda45:能介绍下在爬虫中，MySQL数据库的使用吗？

小怪聊职场:是mysql的单独使用吗

纯天然_a300:楼主，我有点好奇为什么setting配置里面启动的管道写的是tutoiral.piplines呀？

小怪聊职场:tutoiral 是项目名

f285644351d3:pymysql.err.OperationalError: (2003, "Can't connect to MySQL server on '127.0.0.1' ([WinError 10061] 由于目标计算机积极拒绝，无法连接。)")
存在这个我问题，请问是什么原因呢？
pipelines.py 如下
import pymysql
import pymysql.cursors
#设置字符集，防止编码参数出错
import sys
import imp
imp.reload(sys)

# 提交数据到mysql
class DataSubmitMySQLPipeline(object):
def __init__(self):
# 填写数据库用户名、数据库名、数据库用户密码、数据库url
self.conn = pymysql.connect(user='root', db='spider_db', passwd='root',
host='127.0.0.1',charset="utf8", use_unicode=True)

self.cursor = self.conn.cursor()

def process_item(self, item, spider):
insert_sql = """
insert into a_test(title, url)
values(%s,%s)
"""
self.cursor.execute(insert_sql, (item["title"], item["url"]))
self.conn.commit()
f285644351d3:@小怪聊职场可能是这一步弄错了
"""第一步，先创建一个数据库spider_db，新建一个表tb_douban_book，并把对应的数据表字段增加上去，如下图，"""
python3 mysql数据库具体怎么设置能讲讲吗
我一直在尝试pymysql，但一直出错
小怪聊职场:@火车声隆隆没连上数据库吧
小怪聊职场:增加把微博的信息保存到MySQL数据库，https://github.com/huangtao1208/scrapy_spider
fcb7b1dcda45:能介绍下在爬虫中，MySQL数据库的使用吗？
小怪聊职场:是mysql的单独使用吗
纯天然_a300:楼主，我有点好奇为什么setting配置里面启动的管道写的是tutoiral.piplines呀？
小怪聊职场:tutoiral 是项目名

爬虫课程（十）｜豆瓣：通过Pipeline保存数据到json文件

相关文章

爬虫课程（十）｜豆瓣：通过Pipeline保存数据到json文件

Scrapy输出中文保存中文

WebMagic学习(三)之Pipeline保存结果

Python爬虫中Scrapy下操作pipeline.py文件

Android JSON的简单处理

json文件操作及异常捕获

2018-07-26 python学习json文件

Python爬虫解析json遇到一类JSONDecodeErro

【爬虫+可视化】Python爬取疫情数据，并做可视化展示

Python 保存读取json数据

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫

程序员

爬虫专题

大数据爬虫Python AI Sql

python爬虫大数据 ai

Python数据采集与爬虫