美文网首页
2019-07-30

2019-07-30

作者: AliceGYY | 来源:发表于2019-07-30 11:01 被阅读0次

    存储和成本管理

    14.1数据压缩

    在分布式文件系统中,为了提高数据的可用性与性能,通常会将数据存储3分,这就意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。

    archive压缩算法

    14.2

    数据重分布

    14.4生命周期管理

    1.周期性删除策略

    2.彻底删除策略

    3.永久保留策略

    4.极限存储策略

    5.冷数据管理策略

    冷数据管理是永久保留策略的扩展。永久保留的数据需要迁移到冷数据中心进行永久保存,同时将MaxCompute中对应的数据删除。一般将重要且不可恢复的、占用存储空间大于100TB,且访问频次较低的数据进行冷备,例如3年以上的日志数据。

    6.增量表merge全量表策略

    14.4.2

    通用的生命周期管理矩阵

    1.历史数据等级划分

    P0:非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团KPI数据、IPO关联表。

    P1:重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。

    P2:重要的业务数据和重要的应用数据,具有可恢复性,如重要的业务产品数据。

    P3:不重要的业务数据和不重要的应用数据,具有可恢复性,如某些SNS产品报表。

    2.表类型划分

    (1)事件型流水表(增量表)

    事件型流水表(增量表)指数据无重复或者无主键数据,如日志。

    (2)事件型镜像表(增量表)

    事件型镜像表(增量表)指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化,如交易、订单状态与时间会根据业务发生变更。

    (3)维表

    (4)merge全量表

    (5)ETL临时表

    (6)TT临时数据

    (7)普通全量表

    14.5数据成本计量

    将一个数据表的成本分为存储成本和计算成本。存储成本是为了计量数据表消耗的存储资源,计算成本是为了计量数据计算过程中的CPU消耗。

    相关文章

      网友评论

          本文标题:2019-07-30

          本文链接:https://www.haomeiwen.com/subject/ahlgrctx.html