Pandas有一个内置的解决方案,它使用 HDF5,这是一种专门用于存储表格数据阵列的高性能存储格式。
创建储存对象,并存为 save_data
data_store = pd.HDFStore('save_data.h5')
将 DataFrame 放进对象中,并设置 key 为 save_data
data_store['save_data'] = df
data_store.close()
现在,你可以关闭计算机并休息一下。等你回来的时候,你处理的数据将在你需要时为你所用,而无需再次加工。
获取数据储存对象
data_store = pd.HDFStore('save_data.h5')
通过key获取数据
data = data_store['save_data']
data_store.close()
数据存储可以容纳多个表,每个表的名称作为键。
网友评论