pig
Pig为大型数据集的处理提供了更高级别的抽象
Pig是一种大规模数据集的脚本语言
以往我们要做一个数据分析,需要写一个map函数和一个紧随其后的reduce函数。很多时候数据处理需要多个mapreduce过程才能够实现,这样数据分析的门槛变的特别高
有了Pig,就能使用更为丰富的数据:
1.用于描述数据流的语言,称为PigLatin
2.用于执行PigLatin程序的执行环境
我们写好Piglatin代码,使用执行环境执行,这些操作被转换为一系列的mapreduce作业,作为程序员你不需要知道是如何转换的,这样一来你就可以把精力集中在数据上,而非执行细节上
Pig的诱人之处就在于仅使用控制台上的5 6 行pigLatin代码就能够处理TB级数据
我司暂不用,不做详细说明
zookeeper
hadoop的很多组件都是以动物命名的。
zookeeper翻译成英文叫动物园管理员 动物员管理员的作用是什么呢??
1.让象(hadoop),蜜蜂(hive) ,猪(pig)能够更友好的在一起
2.ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务
3.zookeeper其实就是一个软件,所有安装了zookeeper的服务器都叫 zookeeper server
4.zookeeper server 还分为两类角色,由 leader 和 follower 组成,如果leader挂掉,会有选举机制,follower直接替换leader ,leader只有一个,剩下的都是follower
5.zookeeper 的所有服务器中的所有数据结构(树形结构)是完全相同的,
就是说我搭建一个zookeeper集群,集群里面所有机器的数据是一样的
数据是树形结构的,与linux目录结构是一样一样的,zk的每个数据目录就是一个znode
Zookeeper经常用作配置管理,后面我们将要介绍的Hbase就依赖于zookeeper进行配置管理
我们常用 zookeeper 三台或者五台服务器组成一个集群,zookeeper有内部通讯机制,保证所有服务器中的所有数据结构(树形结构)是完全相同的,我们可以把一些配置信息放在zookeeper内
如果企业规模大,各服务配置文件依赖关系多,错综复杂,这时候可以把所有配置存放在zookeeper内,然后各应用从zookeeper进行拉取即可
zookeeper 很常用,可以参考我的课程:
Kafka与zookeeper 5台集群生产实战视频课程
网友评论