美文网首页学习提升Python
《七天爬虫进阶系列》 - 03 数据存储之 文件处理

《七天爬虫进阶系列》 - 03 数据存储之 文件处理

作者: 聂云⻜ | 来源:发表于2020-02-23 23:08 被阅读0次

    数据存储往往是爬虫操作的第三步,本篇主要阐述如何将转化后的数据载入到特定文件,包括json、Excel和CSV。

    json文件处理:

    什么是json:

    JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。更多解释请见:https://baike.baidu.com/item/JSON/2462549?fr=aladdin

    JSON支持数据格式:

    1. 对象(字典)。使用花括号。
    2. 数组(列表)。使用方括号。
    3. 整形、浮点型、布尔类型还有null类型。
    4. 字符串类型(字符串必须要用双引号,不能用单引号)。

    多个数据之间使用逗号分开。
    注意:json本质上就是一个字符串。

    字典和列表转JSON:

    import json
    
    books = [
        {
            'title': '钢铁是怎样练成的',
            'price': 9.8
        },
        {
            'title': '红楼梦',
            'price': 9.9
        }
    ]
    
    json_str = json.dumps(books,ensure_ascii=False)
    print(json_str)
    
    

    因为jsondump的时候,只能存放ascii的字符,因此会将中文进行转义,这时候我们可以使用ensure_ascii=False关闭这个特性。
    Python中。只有基本数据类型才能转换成JSON格式的字符串。也即:intfloatstrlistdicttuple

    将json数据直接dump到文件中:

    json模块中除了dumps函数,还有一个dump函数,这个函数可以传入一个文件指针,直接将字符串dump到文件中。示例代码如下:

    books = [
        {
            'title': '钢铁是怎样练成的',
            'price': 9.8
        },
        {
            'title': '红楼梦',
            'price': 9.9
        }
    ]
    with open('a.json','w') as fp:
        json.dump(books,fp)
    
    

    将一个json字符串load成Python对象:

    json_str = '[{"title": "钢铁是怎样练成的", "price": 9.8}, {"title": "红楼梦", "price": 9.9}]'
    books = json.loads(json_str,encoding='utf-8')
    print(type(books))
    print(books)
    
    

    直接从文件中读取json:

    import json
    with open('a.json','r',encoding='utf-8') as fp:
        json_str = json.load(fp)
        print(json_str)
    

    CSV

    csv文件处理

    读取csv文件:

    import csv
    
    with open('stock.csv','r') as fp:
        reader = csv.reader(fp)
        titles = next(reader)
        for x in reader:
            print(x)
    

    这样操作,以后获取数据的时候,就要通过下表来获取数据。如果想要在获取数据的时候通过标题来获取。那么可以使用DictReader。示例代码如下:

    import csv
    
    with open('stock.csv','r') as fp:
        reader = csv.DictReader(fp)
        for x in reader:
            print(x['turnoverVol'])
    

    写入数据到csv文件:

    写入数据到csv文件,需要创建一个writer对象,主要用到两个方法。一个是writerow,这个是写入一行。一个是writerows,这个是写入多行。示例代码如下:

    import csv
    
    headers = ['name','age','classroom']
    values = [
        ('zhiliao',18,'111'),
        ('wena',20,'222'),
        ('bbc',21,'111')
    ]
    with open('test.csv','w',newline='') as fp:
        writer = csv.writer(fp)
        writer.writerow(headers)
        writer.writerows(values)
    也可以使用字典的方式把数据写入进去。这时候就需要使用DictWriter了。示例代码如下:
    
    import csv
    
    headers = ['name','age','classroom']
    values = [
        {"name":'wenn',"age":20,"classroom":'222'},
        {"name":'abc',"age":30,"classroom":'333'}
    ]
    with open('test.csv','w',newline='') as fp:
        writer = csv.DictWriter(fp,headers)
        writer = csv.writeheader()
        writer.writerow({'name':'zhiliao',"age":18,"classroom":'111'})
        writer.writerows(values)
    

    excel文件处理

    相关文章

      网友评论

        本文标题:《七天爬虫进阶系列》 - 03 数据存储之 文件处理

        本文链接:https://www.haomeiwen.com/subject/lmqeqhtx.html