0 背景
- 需求处理过程中,难免中断临时改程序,而前期已经处理好的数据,弃之可惜;
- 直接读取存储数据库,对带宽的要求颇高;
- pd.HDFStore,可直接存取DataFrame整个结构,速度快(但生成过程中对内存要求颇高);
1 DataFrame的存储
下面程序中,bi_tips是自用的包,用于快速访问数据库,可忽略。
__author__ = 'bi_user'
import pandas as pd
import bi_tips
(engine, conn, cur) = bi_tips.bi_choose_mysql_database(server='aliyun_mysql_master_inside', dbname='bi_cube')
sql = "select tid from jst_cube_2018"
tids = pd.read_sql(sql,con=engine)
data_store = pd.HDFStore("D:\\temp\\temp.h5", complib='zlib')
data_store['tids'] = tids
data_store.close()
2 DataFrame的读取
data_store = pd.HDFStore("D:\\temp\\temp.h5", complib='zlib')
tids = data_store['tids']
print tids.shape
data_store.close()
网友评论