美文网首页
2019-07-30

2019-07-30

作者: AliceGYY | 来源:发表于2019-07-30 11:01 被阅读0次

存储和成本管理

14.1数据压缩

在分布式文件系统中,为了提高数据的可用性与性能,通常会将数据存储3分,这就意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。

archive压缩算法

14.2

数据重分布

14.4生命周期管理

1.周期性删除策略

2.彻底删除策略

3.永久保留策略

4.极限存储策略

5.冷数据管理策略

冷数据管理是永久保留策略的扩展。永久保留的数据需要迁移到冷数据中心进行永久保存,同时将MaxCompute中对应的数据删除。一般将重要且不可恢复的、占用存储空间大于100TB,且访问频次较低的数据进行冷备,例如3年以上的日志数据。

6.增量表merge全量表策略

14.4.2

通用的生命周期管理矩阵

1.历史数据等级划分

P0:非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团KPI数据、IPO关联表。

P1:重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。

P2:重要的业务数据和重要的应用数据,具有可恢复性,如重要的业务产品数据。

P3:不重要的业务数据和不重要的应用数据,具有可恢复性,如某些SNS产品报表。

2.表类型划分

(1)事件型流水表(增量表)

事件型流水表(增量表)指数据无重复或者无主键数据,如日志。

(2)事件型镜像表(增量表)

事件型镜像表(增量表)指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化,如交易、订单状态与时间会根据业务发生变更。

(3)维表

(4)merge全量表

(5)ETL临时表

(6)TT临时数据

(7)普通全量表

14.5数据成本计量

将一个数据表的成本分为存储成本和计算成本。存储成本是为了计量数据表消耗的存储资源,计算成本是为了计量数据计算过程中的CPU消耗。

相关文章

  • 2019-07-30 webstorm 最新注册码

    2019-07-30 webstorm 最新注册码 YZVR7WDLV8-eyJsaWNlbnNlSWQiOiJZ...

  • [补]Lan的ScalersTalk第四轮新概念朗读持续力训练D

    练习材料: [Day 1768 2019-07-30] Lesson 27-2The 'Vasa' They ha...

  • 2019-08-01

    2019-07-30 毛雅亭 字数 563 · 阅读 14 2019-06-02 18:39 ...

  • 文先森的日常

    日精进打卡第364天 姓名:李文杰 (四爷); 公司:中国太平人寿; 日期:2019-07-30 【知~学习】 《...

  • 夏季避暑杭州灵隐寺 清晨入古寺初日照高林

    夏季避暑杭州灵隐寺 清晨入古寺初日照高林 人生最好旅行 2019-07-30 11:32 夏季避暑杭州灵隐寺 清晨...

  • 以后

    时间:2019-07-30 20:51 周三 地点:湖北武汉 天气:好热,晚上下雨了 状态:有些开心 关键字:回首...

  • 深度践行14/90

    2019-07-30 今日天气:凉 【宣言】做更好的自己 #深度践行 教练姓名:谭福翠 孩子年龄+性别:张崤睿12...

  • 2019-07-30

    2019-07-30 姓名:郭祥华 组别:315期六项精进努力一组 【日精进打卡第570】 【知~学习】 背诵《...

  • 看图说话

    你的文章《2019-07-30》已转为仅自己可见,如有疑问请查看《为什么文章会被锁定?》或邮件联系 hel...

  • 2.0践行50/90

    2019-07-30 打卡天数:Day50 #不吼不叫做温柔父母# 菠萝7月目标: 亲子共读时间管理 妈妈7月目标...

网友评论

      本文标题:2019-07-30

      本文链接:https://www.haomeiwen.com/subject/ahlgrctx.html