python爬虫系列之数据的存储（一）：json库的使用

作者: 渔父歌 | 来源:发表于2018-07-03 22:28 被阅读66次

python爬虫系列之数据的存储（一）：json库的使用
Python与数据库-网络爬虫存储
python爬虫系列（3）- 网页数据解析（bs4、lxml、J
数据库模块-Python爬虫之构建代理池（一）
python爬虫系列之数据的存储（二）：csv库的使用
Python网络数据采集之图像识别与文字处理
数据存储之python下JSON的写入和读取(一)
数据存储之python下JSON的写入和读取(一)
2019-05-29 图书比价工具
Python3爬虫环境配置——请求库安装（附Firefox和Ch

在上一篇文章里我们讲了 xpath写法的问题还以爬取我的文章信息写了示例，但是在上一篇中我们只是爬取并打印了信息，并没有对信息进行保存。

实际应用中爬取到的信息肯定是需要保存到本地的。保存信息的方式有数据库和文件的形式，数据库我们后面再讲，现在让我们先看看怎么把信息保存到文件里。

这里我们主要讲讲将数据保存为 json格式和 csv格式，这就要用到两个库 json库和 csv库，这两个库都是 python自带的库。

关于数据存储我们分两篇来讲，这一篇先讲 json，下一篇再讲 csv。

一、关于 json

json的简介直接引用百度百科的定义：

JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。

实际上 json的格式和 python中的字典很像，也是由键值对组成，但是 python中的值可以为任何对象（列表、字典、字符串、数字等等），而 json中的值只能是数组（列表）、字典、字符串、数组、布尔值中的一中或几种。

其格式就像下面这样：

注意：json中的引号必须是双引号，否则会报错

{
    "key1": "value1",
    "key2": [1,2,"value2"],
    "key3": 
    {
        "key31": "value1",
        "key32": [1,2,"value2"],
        "key33": true,
    },
}

二、json库的使用

json库一共有三个方法，分别是 dump、dumps、load、loads。

其中 dump和 dumps是用来把把字典和数组转换为 json格式的，dump把转换结果直接写入文件，dumps返回字符串。

load和 loads是把 json格式的数据转换为字典格式，load直接从 json文件中读取数据并返回字典对象，loads把字符串形式的 json数据转换成字典格式。

下面讲讲这些方法的具体用法。

1、dump和 dumps

dump的函数原型是 dump(obj, fp) 第一个参数 obj是要转换的对象，第二个参数 fp是要写入数据的文件对象。

dumps的函数原型是 dumps(obj) 参数是要转换的对象

注意：如果要转换的对象里有中文字符的话，要把 ensure_ascii设置为 False否则中文会被编码为 ascii格式

#-*- coding: utf-8 -*
import json


test = {
    "key1": "value1",
    "key2": [1,2,"value2"],
    "key3":
    {
        "key31": "value1",
        "key32": [1,2,"value2"],
        "key33": True,
        "key34": "测试",
    },
}

#没有设置 ensure_ascii为 False
with open('test.json', 'w', encoding='utf-8') as fp:
    json.dump(test, fp)
#设置了 ensure_ascii为 False
with open('test_no_ascii.json', 'w', encoding='utf-8') as fp:
    json.dump(test, fp, ensure_ascii=False)

#test.json的文件内容为：
#{... ... "key33": true, "key34": "\u6d4b\u8bd5"}}
#test_no_ascii.json的文件内容为：
#{... ... "key33": true, "key34": "测试"}}
#注意到 python中的 True转换成了 Javascript里的 true
#另外在打开文件的时候强烈建议用 encoding指定文件编码
#还需要注意文件的打开模式 w是写入，文件已存在的话就覆盖
#要追加写入的话记得用 a模式打开

test_string = json.dumps(test, ensure_ascii=False)
print(test_string)

打印结果：

2、load和 loads

load的函数原型是 load(fp) 参数 fp是要读取的文件对象

loads的函数原型是 loads(string) 参数 string是要转换成 python对象的 json字符串，通常用来将网页中的 json数据转换为 python对象

#-*- coding: utf-8 -*
import json


#json格式的字符串
test_string = '{"key1": "value1", "key2": [1, 2, "value2"], "key3": {"key31": "value1", "key32": [1, 2, "value2"], "key33": true, "key34": "测试"}}'

#从之前保存的 test_no_ascii.json中读取 注意模式为 r
with open('test_no_ascii.json', 'r', encoding='utf-8') as fp:
    json_obj_from_file = json.load(fp)

json_obj_from_web = json.loads(test_string)

#打印两个返回结果的类型
print(type(json_obj_from_file))
print(type(json_obj_from_web))
#打印两个返回结果的内容
print(json_obj_from_file)
print(json_obj_from_web)

打印结果：

csv库在下一篇继续讲，点赞就是对我最大的支持(～￣▽￣)～

上一篇：python爬虫系列之 html页面解析：如何写 xpath路径

下一篇：python爬虫系列之数据的存储（二）：csv库的使用

python爬虫系列之数据的存储（一）：json库的使用
在上一篇文章里我们讲了 xpath写法的问题还以爬取我的文章信息写了示例，但是在上一篇中我们只是爬取并打印了信息，...
Python与数据库-网络爬虫存储
Python与数据库-网络爬虫存储 @(数据科学)[小树枝来了, 帮助, Markdown, 网络爬虫, 数据存储...
python爬虫系列（3）- 网页数据解析（bs4、lxml、J
python爬虫系列（3）- 网页数据解析（bs4、lxml、Json库）本文记录解析网页bs4、lxml、Js...
数据库模块-Python爬虫之构建代理池（一）
之前（Python爬虫之构建代理池）我们已经说过将代理数据使用Redis进行存储管理，我们需要一个数据库模块来和R...
python爬虫系列之数据的存储（二）：csv库的使用
上一篇我们讲了怎么用 json格式保存数据，这一篇我们来看看如何用 csv模块进行数据读写。一、csv简介 CS...
Python网络数据采集之图像识别与文字处理
网络采集系列文章 Python网络数据采集之创建爬虫Python网络数据采集之HTML解析Python网络数据采集...
数据存储之python下JSON的写入和读取(一)
数据存储之python下JSON的保存和读取(一) JSON字符串的含义 JSON(JavaScript Obje...
数据存储之python下JSON的写入和读取(一)
数据存储之python下JSON的保存和读取(一) JSON字符串的含义 JSON(JavaScript Obje...
2019-05-29 图书比价工具
基础知识：1.python操作json数据2.Xpath 知识点讲解3.爬虫基础知识4.requests 库的使用...
Python3爬虫环境配置——请求库安装（附Firefox和Ch
Python3爬虫环境配置——请求库安装一、常用库爬虫主要分为三步：抓取页面、分析页面以及存储数据。抓取页面是...