摘要:本文主要介绍 Apache Paimon 在同程旅行的生产落地实践经验。在同程旅行的业务场景下,通过使用 P...[作者空间]
前言 Phoenix 最早是 saleforce 的一个开源项目,后来成为 Apache 的顶级项目。Phoeni...[作者空间]
一、Hbase的架构 架构角色 Region ServerRegion Server 为 Region 的管理者,...[作者空间]
产生背景 自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后, 好多公司实现处理...[作者空间]
Skip-gram是一种用于训练词向量的算法,它可以将每个单词表示为一个向量,并且在这些向量之间保留单词之间的...[作者空间]
1、背景 此篇文档仅仅是简单的记录一下painless的一些简单的例子,防止以后忘记,不过多涉及painless的...[作者空间]
gitee地址:https://gitee.com/ddxygq/bigdata-technical-pai[ht...[作者空间]
一.Spark UI 选项卡的组成 1.Jobs 1.1 首页 补充: Scheduling Mode:appli...[作者空间]
left join on on后边如果是主表条件 结果集中会有 但不参与join 总结:Hive SQL 中...[作者空间]
1 HDFS 组成架构 NameNode(NN)管理HDFS的名称空间配置副本策略管理数据块(Block)映射信息...[作者空间]
1. ClickHouse设计思想和核心技术特征 1.1 ClickHouse 全知全解 ClickHouse 是...[作者空间]
前言 计算引擎 大数据计算引擎分为离线计算和实时计算,离线计算就是我们通常说的批计算,代表是Hadoop MapR...[作者空间]
背景 ClickHouse 作为开源 OLAP 引擎,因其出色的性能表现在大数据生态中得到了广泛的应用。区别于 H...[作者空间]
一、业务背景 1、应用场景 在多变的数据服务场景中,应用中常见如下的业务需求,通过对多种数据结构的灵活组合,快速实...[作者空间]
1. 埋点规范 埋点数据不应该分布在各个业务方的手中,应该统一管理,统一格式,前端工程师不仅要管业务还要管对错.埋...[作者空间]
Spark SQL工作负载的性能问题,一直都是优化需要考虑的重要问题。在Spark 3.0之后,推出了自适应查询框...[作者空间]
HDFS作为Hadoop大数据生态下的分布式文件系统,在越来越大规模的数据场景下,HDFS历经考验,其性能也得到肯...[作者空间]
由于项目刚启动,人手不足,kafka引擎表在我们项目中应用很多,基本靠kafka引擎表来做日志计量工作。目前...[作者空间]
一、Hbase简介 1、什么是Hbase Hbase是一个高可靠性(存储在hdfs上,有副本机制),高性能,面向列...[作者空间]
Flink+Clickhouse实时数仓在广投集团的最佳实践 一、业务背景 由于历史原因,大型集团企业往往多个帐套...[作者空间]