1.整体方案
image.png2.找问题
image.png3.获取完整的元数据信息
image.png4.解决方案
image.png5.治理体系
image.png6.治理实践
6.1权责有归属
ods治理项,这里先是数仓按业务承接云村平台所有dump任务和表。第二是推动产品功能落地,用户按业务划分提交dump任务,数仓审批并负责相关的任务和表的管理。
离职人员表任务归属,通过拉取离职人员组织关系、拉专项群对任务和表进行认领。
项目账号表归属,通过定制表推荐归属规则,计算出表的推荐归属责任人。并实现表批量归属工具,实现批量表的归属。
6.2机制可持续
image.png6.3hdfs层面-游离hdfs文件治理
image.png6.4库表层面-数据库治理
image.png6.5库表层面-表治理
image.png6.6模型设计层面-“三度”指标治理
image.png6.7数据处理层面-计算治理
image.png7.成果
成本收益
存储上
累计下线的存储占整体存储的30%
存储增量趋势放缓,由原来的日增170T,下降到日增55T
计算上
核心&耗资源任务计算资源节省30%以上
集群稳定性提升
核心任务产出提前,基线保障由9点提前至5点30
治理资产沉淀
数据资产沙盘,可以在大盘的角度观察我们整体数据的变化情况。
"三度"指标概览,可以从不同的粒度,反馈数仓整体建设健康度的情况。
计存沙盘,可以看到不同数据使用方在存储成本和计算成本上的表现,也可以监测异动情况。
治理效果看板,汇总了我们每一项专项治理过程中产生的收益情况。
游离文件监控、任务监控等等.....
规范沉淀
数据库使用规范
临时表建表规范
节点命名规范
队列使用规范
任务上线规范
数据治理下线流程规范
......
网友评论