一、业务背景 在系统业务开发的过程中,都会面临这样一个问题:面对业务的快速扩展,很多版本在当时没有时间去全局考虑,...[作者空间]
数据已成为很多公司的核心资产,而在数据开发的过程中会引入各种质量、效率、安全等方面的问题,而数据治理就是要不断消除...[作者空间]
1、HiveSource-xxxx.xxxx's parallelism (200) is higher than...[作者空间]
Checkpointing 是 Flink 故障恢复的内部机制。一个 checkpoint 就是 Flink应用程...[作者空间]
作者:买蓉 · 美团点评高级技术专家整理:赵阳(Flink 社区志愿者)校对:苗浩冲(Flink 社区志愿者) 本...[作者空间]
基本概念 数据(Data) 数据是我们通过观察、实验或计算得出的结果。数据有很多钟,最简单的是数字,数据也可以是文...[作者空间]
实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实...[作者空间]
标签数据开发是用户画像体系中最重要的一环,主要包括离线标签开发、实时标签开发、用户特征库开发、人群计算、打通数据服...[作者空间]
转自千峰王溯老师 1、用户画像项目简介 1.1 什么是用户画像 所谓的用户画像就是给用户贴一些标签,通过标签说明用...[作者空间]
本项目基于淘宝用户行为数据,探索用户行为规律,寻找高价值用户,具体指标包括:日PV和日UV分析,支付率分析,复购行...[作者空间]
火山日常啰嗦学习了一些大数据的相关框架后,发现应用层的东西确实不难,真正难的都是底层原理,所以我查看了很多资料,借...[作者空间]
利用 hive 做数据查询或者分析的时候,原生的 hive 函数可能无法满足我们的需求,这时候我们可以自定义 hi...[作者空间]