在进行以下操作前,以经在虚拟机中安装了Hadoop集群环境。 下载解压 将spark下载解压到虚拟机中: 修改配置...[作者空间]
一、安装虚拟机 点击从光盘或映像中安装,选择创建虚拟机的镜像 继续下一步,点击自定设置,修改虚拟机的名称 打开虚拟...[作者空间]
一些命令:ifconfig命令:查看与配置网络状态命令ifconfig eth0 192.168.0.200 ne...[作者空间]
Source API 以下scala代码展示了几种source类型: flink从kafka获取源数据 首先pow...[作者空间]
Scala编写批处理和流处理wordcount 这部分,我们在idea上使用Maven编写Scala程序实现批处理...[作者空间]
环境搭建 1、测试Hadoop集群环境 首先我们已经成功部署安装了一个hadoop集群,然后本地可以连接到集群的M...[作者空间]
概述 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresq...[作者空间]
MySQL的安装和部署 MySQL下载 hive的元数据一般存储在MySQL中,所以我们需要先安装一个MySQL:...[作者空间]
什么是数据漂移 通常我们把从源系统同步进入数仓的第一层数据称为 ODS或者staging层数据,接入层 。数据漂移...[作者空间]
概念 消费者和消费组 kafka消费者是消费组的一部分,当多个消费者形成一个消费组来消费主题时,每个消费者会接收到...[作者空间]
消息发送类型 发送即忘记 同步发送 异步发送 序列化器 消息要到网络上进行传输,必须进行序列化,而序列化器的作用就...[作者空间]
概述 Apache Kafka是一个分布式的发布-订阅消息系统,能够支撑海量数据的数据传递。在离线和实时的消息处理...[作者空间]
基本概念 数据(Data) 数据是我们通过观察、实验或计算得出的结果。数据有很多钟,最简单的是数字,数据也可以是文...[作者空间]
处理海量数据有时候需要对数据集进行排序,一般排序算法复杂度是n的平方,如果处理海量数据时会有问题,需要优化。 类似...[作者空间]
全局计数器 程序运行过程中,框架自带一系列计数器,最后在日志中将把结果打印。 主要分为以下几类:文件系统计数器:主...[作者空间]
reduce端的Join map端的Join 相比reduce端的Join,我们可以考虑将小表的数据加载到每个运行...[作者空间]
指标的基本概念 指标体系定义 指标体系是将单点的具有相互联系的指标系统化组织起来,主要由指标和体系两部分组成。指标...[作者空间]
Spark Streaming可整合多种输入数据源如Kafka、flume、hdfs等。 基本原理 Spark S...[作者空间]
MapReduce自定义类的编写 在有些场景中,我们可以自己定义一个类用于传输或者处理key或者value,这个类...[作者空间]
基本概念 Shark、Spark SQL和Hive之间的关系:Shark借用了Hive大部分的组件,包括词法分析、...[作者空间]