敏捷之歌我抽数故我存在 | DBus人人玩转流处理 | Wormhole就当吾是数据库 | Moonbox颜值最后...[作者空间]
导读:本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论,即“实时数据平台”。 在上篇设计篇中,我们首...[作者空间]
很多时候数据量大了,特别是有几亿条数据的时候,可能你会懵逼的发现,跑个搜索怎么一下 5~10s,坑爹了。 第一次搜...[作者空间]
什么是kafka? kafka是分布式发布-订阅消息系统,是一种分布式的消息队列工具 kafka是一个分布式的,可...[作者空间]
从去年开始,越来越多的大数据从业者提到“数据中台”的概念。在信息系统建设工作中,我们熟知系统可以分为前台和后台,但...[作者空间]
Spark 运行模式分类 本地模式; standalone模式; spark on yarn 模式,又分未yarn...[作者空间]
什么是二次排序 二次排序就是key之间有序,而且每个Key对应的value也是有序的;也就是对MapReduce的...[作者空间]
将题目分为两部分——元数据和数据治理时,元数据治理最容易理解。询问任何擅长元数据管理的组织(或提供他们的数据,信息...[作者空间]
Kafka史上最详细原理总结分为上下两部分,承上启下 Kafka史上最详细原理总结上 Kafka史上最详细原理总结...[作者空间]
用了几次impala + kudu做大数据实时计算场景,一路踏坑过来,这里分享踏坑经验 一开始需要全量导入kudu...[作者空间]