前言 Apache Kylin采用“预计算”的模式,用户只需要提前定义好查询维度,Kylin将帮助我们进行计算,并...[作者空间]
一、创建/删除/修改/使用数据库 二、创建/删除/截断表 1.创建表 2.截断表和删除表 3.改变表/分区/列 三...[作者空间]
前言 RDD之间的依赖关系一般分为两种,宽依赖和窄依赖。 在网上好多博客中是这样描述宽依赖和窄依赖的特点 窄依赖每...[作者空间]
一.什么是RDD RDD是弹性分布式数据集(Resilient Distributed Dataset),RDD是...[作者空间]
一.Storm spout的nextTuple以及bolt的execute Storm的API非常丰富,但是记住,...[作者空间]
欢迎关注专栏:Java架构技术进阶。里面有大量batj面试题集锦,还有各种技术分享,如有好文章也欢迎投稿哦。 根目...[作者空间]
前言 Source是负责接收数据到Flume Agent的组件。Source可以从其他系统接收数据。Source也...[作者空间]
虽然一直在接触这些专业的名词,但是一直理解的不深刻,所以今天特地查了一些官方解释和很多优秀的博客文章,将关于这些方...[作者空间]
前言 本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。 Apache Sen...[作者空间]
一.概述 Flume将数据表示为事件,事件是非常简单的数据结构,具有一个主体和一个报头集合,事件的主体是一个字节数...[作者空间]
面试官心理分析 在搜索这块,lucene 是最流行的搜索库。几年前业内一般都问,你了解 lucene 吗?你知道倒...[作者空间]
Flume最重要的组件是Source、Channel和Sink,另外,Flume Agent还有一些使Flume更...[作者空间]
LSM-tree 在 NoSQL 系统里非常常见,基本已经成为必选方案了。今天介绍一下 LSM-tree 的主要思...[作者空间]
前言 首先要说,MapTask,分为4种,分别是Job-setup Task,Job-cleanup Task,T...[作者空间]
Elasticsearch 基于 Lucene,隐藏其复杂性,并提供简单易用的 Restful API接口、Jav...[作者空间]
前言 Mapreduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop的数据分析 应用”的核心框...[作者空间]
自动化failover的引入 HDFS中自动化的failover故障转移需要增加两个新的组件:一个是Zookeep...[作者空间]
前言Hadoop2.0之前,NameNode是单个集群的故障点,NameNode作为集群首脑,存放着集群中所有的元...[作者空间]
本文引用了公众号“IT一刻钟”的《一篇读懂分布式架构下的负载均衡》一文的部分内容,感谢原作者的分享。 1、引言 关...[作者空间]
界面介绍 首页有四个菜单 projects:最重要的部分,创建一个工程,所有flows将在工程中运行。 sched...[作者空间]