美文网首页我爱编程
pandas读取大文件json

pandas读取大文件json

作者: 绍重先 | 来源:发表于2018-02-19 00:02 被阅读0次

首先,更换一个64位python(推荐3.6版本63位的Anaconda)和较大内存的工作站。

  • 使用库:
    pandas
    json
  1. 如果json中有中文字符,则以utf-8格式读取为字符串
dataopen = open(path,'r',encoding='utf-8').read()
  1. 键值中有非法控制符号如\n\t则采用strict=False参数读取,将字符串读取为dict字典结构
dataj = json.loads(dataopen,strict=False)

3.适当清洗数据

del dataf['com_id']
del dataf['id']
del dataf['page_url']
  1. 使用pandas库将数据字典转换为DataFrame数据帧格式

  2. 单元键值过长出现with link or location/anchor > 255 characters since it exceeds Excel's limit for URLS force_unicode(url))问题,使用ExcelWriter设置不要将strings转换成urls

writer = pd.ExcelWriter(r'WebHireExcel.xlsx', engine='xlsxwriter',options={'strings_to_urls': False})
  1. 再次转换,参数设置为ExcelWriter转换器
dataf.to_excel(writer)

相关文章

  • pandas读取大文件json

    首先,更换一个64位python(推荐3.6版本63位的Anaconda)和较大内存的工作站。 使用库:panda...

  • Python学习日记(二)

    一、学习用Python读取Excel数据 1、转为JSON文件 2、用Pandas读取 通过实操转JSON格式的方...

  • python3 基于pandas读写Excel

    基于pandas读取execl读取文件类似 保存json文件: 具体文件 其他方式,参考Python-Excel ...

  • pandas读取超大文件

    pandas读取大于内存的文件 方法1, 设置chunksize, 分块读取 方法2, 使用iterator, 但...

  • 离网用户预警

    读取数据 pandas可以读取文本文件、json、数据库、Excel等文件 使用read_csv方法读取以逗号分隔...

  • Pandas读取文件进度(Spinner)实现方法

    写在前面 在实际情况中,若通过Pandas读取较大文件时,个人认为常用的progressbar,progress,...

  • 文本/数据操作

    大文件读取 json 中文编码问题: 排序: url中文转码(python3) csv 文件操作模式 xml lx...

  • 02. Pandas读取数据

    02. Pandas读取数据 本代码演示:pandas读取纯文本文件读取csv文件读取txt文件pandas读取x...

  • Pandas_导入导出

    pandas可以读取与存取的资料格式有很多种,像csv、excel、json、html与pickle等… Demo...

  • java操作文件

    优雅读取文件 优雅的写入文件 读取大文件

网友评论

    本文标题:pandas读取大文件json

    本文链接:https://www.haomeiwen.com/subject/xkxitftx.html