在深度学习中会有大量数据需要存储,比如MNIST大量的图像数据如果以文件形式存储显然很有局限性,把数据转为矩阵进行存储这对于训练是很有好处的。
H5PY可以实现大规模数据存储,这个包有两个主要概念就是dataset
和group
。前者相当于numpy中矩阵,后者相当于python中的字典key。每个dataset都会有对应的路径(分层存储)。
1.安装
pip3 install h5py
2.入门
- 创建文件
f = h5py.File("mytestfile.hdf5", "w")
这里文件跟python文件类似,也有相关选项。
Paste_Image.png- 创建数据集dataset
dset = f.create_dataset("mydataset", (100,), dtype='i')
- 创建组group
grp = f.create_group("subgroup")
每个组可以认为是一个目录,这个对象就可以调用create_dataset来创建数据集。
网友评论