Python 操作 HDF5文件

作者: 学而时习之_不亦说乎 | 来源:发表于2018-02-14 12:37 被阅读7664次

Matlab操作HDF5文件中已经详细介绍了HDF5文件已经利用Matlab对其进行操作的方法。这篇文章总结一下如何在Python下使用HDF5文件。我们仍然按照Matlab操作HDF5文件的顺序进行,分别是创建HDF5文件写入数据读取数据

Python下的HDF5文件依赖h5py工具包

创建文件和数据集

使用`h5py.File()方法创建hdf5文件

h5file = h5py.File(filename,'w')

然后在此基础上创建数据集

X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size),             #数据集的维度
                              maxshape = (None,args.patch_size,args.patch_size),                #数据集的允许最大维度 
                              dtype=float,compression='gzip',name='train',                      #数据类型、是否压缩,以及数据集的名字
                              chunks=(args.chunk_size,args.patch_size,args.patch_size))         #分块存储,每一分块的大小

最为关系的两个参数为shape和maxshape,很显然我们希望数据集的某一个维度是可以扩展的,所以在maxshape中,将希望扩展的维度标记为None,其他维度和shape参数里面的一样。还有一点值得注意的是,使用compression='gzip'以后,整个数据集能够被极大的压缩,对比较大的数据集非常又用,并且在数据读写的时候,不用用户显式的解码。

写数据集

在使用上面的creat_dataset创建了dataset以后,读写数据集就如同读写numpy数组一样方便,比如上面的函数定义了数据集'train',也就是变量X以后,可以下面的方法来读写:

data = np.zeros((100,args.patch_size,arg))
X[0:100,:,:] = data

在前面创建数据集的时候,我们定义shape = (args.chunk_size,args.patch_size,args.patch_size),如果有更多的数据,怎么办呢?
可以使用resize方法来扩展在maxshape中定义为None的那个维度:

X.resize(X.shape[0]+args.chunk_size,axis=0)

因为我们在maxshape=(None,args.patch_size,args.patch_size)中将第零个维度定义为可扩展,所以,首先我们用X.shape[0]来找到该维度的长度,并将其扩展。该维度扩展以后,就可以继续向里面写入数据了。

读数据集

读取h5文件的方法也非常简单,首先利用h5py.File方法打开对应的h5文件,然后将里面的某个数据集取出至变量,对这个变量的读取就如同numpy一样了。

h = h5py.File(hd5file,'r')
train = h['train']
train[1]
train[2]
...

但是上面的读取方法存在一个问题就是每一次使用的时候(train[1],train[2])都需要从硬盘读取数据,这将会导致读取的速度比较慢。一个比较好的方法是,每次从硬盘读取一个chunk_size的数据,然后将这些数据存储到内存中,在需要的时候从内存中读取,比如使用下面的方法:

h = h5py.File(hd5file,'r')
train = h['train']
X = train[0:100]         #一次从硬盘中读取比较多的数据,X将存储在内存中
X[1]                     #从内存中读取
X[2]                     #从内存中读取

这样的方法就会快很多。

相关文章

  • python写入和读取h5、pkl、mat 文件

    python中使用h5py对HDF5文件进行操作。1、创建文件和数据集import h5pyimport nump...

  • Python 操作 HDF5文件

    在Matlab操作HDF5文件中已经详细介绍了HDF5文件已经利用Matlab对其进行操作的方法。这篇文章总结一下...

  • HDF(1): 简单介绍

    HDF5 HDF5是文件型数据库,适合存储大批量同类型数据,读写速度快,占用空间小。HDF5 API只负责操作和组...

  • 数据挖掘-pandas库的使用

    读取 pandas是python中的数据处理库,可以读取数据库,csv文件,txt文件,excel文件,hdf5文...

  • 14.Python之文件操作

    Python之文件操作 文件操作通过Python中的内置函数open()对文件进行操作。文件操作需要如下几个参数:...

  • 第二节课:Python 操作文件 ——软件测试派

    学习目标:掌握 python 操作文件 python 提供内置函数 open()实现对文件的操作。 python ...

  • HDF5数据格式读写

    1 hdf5格式使用方法 1.1 hdf5文件介绍 一个HDF5文件是一种存放两类对象的容器:dataset和gr...

  • HDF5

    python中利用h5py模块读取h5文件中的主键caffe1——图像转换成lmdb(ldeveldb)、hdf5文件

  • Python遍历目录并操作文件

    今天来使用python操作文件,包括根据模式查找文件、删除文件操作。 完整代码托管在python/find...

  • 解析Python中的文件操作

    1.简介 在Python中无需引入额外的模块来进行文件操作,Python拥有内置的文件操作函数(除了内置文件操作函...

网友评论

    本文标题:Python 操作 HDF5文件

    本文链接:https://www.haomeiwen.com/subject/neostftx.html