存储和成本管理
14.1数据压缩
在分布式文件系统中,为了提高数据的可用性与性能,通常会将数据存储3分,这就意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。
archive压缩算法
14.2
数据重分布
14.4生命周期管理
1.周期性删除策略
2.彻底删除策略
3.永久保留策略
4.极限存储策略
5.冷数据管理策略
冷数据管理是永久保留策略的扩展。永久保留的数据需要迁移到冷数据中心进行永久保存,同时将MaxCompute中对应的数据删除。一般将重要且不可恢复的、占用存储空间大于100TB,且访问频次较低的数据进行冷备,例如3年以上的日志数据。
6.增量表merge全量表策略
14.4.2
通用的生命周期管理矩阵
1.历史数据等级划分
P0:非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团KPI数据、IPO关联表。
P1:重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。
P2:重要的业务数据和重要的应用数据,具有可恢复性,如重要的业务产品数据。
P3:不重要的业务数据和不重要的应用数据,具有可恢复性,如某些SNS产品报表。
2.表类型划分
(1)事件型流水表(增量表)
事件型流水表(增量表)指数据无重复或者无主键数据,如日志。
(2)事件型镜像表(增量表)
事件型镜像表(增量表)指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化,如交易、订单状态与时间会根据业务发生变更。
(3)维表
(4)merge全量表
(5)ETL临时表
(6)TT临时数据
(7)普通全量表
14.5数据成本计量
将一个数据表的成本分为存储成本和计算成本。存储成本是为了计量数据表消耗的存储资源,计算成本是为了计量数据计算过程中的CPU消耗。
网友评论