美文网首页
8.HADOOP组件pig、zookeeper

8.HADOOP组件pig、zookeeper

作者: 经纶先生 | 来源:发表于2017-08-31 11:06 被阅读0次

    pig

    Pig为大型数据集的处理提供了更高级别的抽象
    Pig是一种大规模数据集的脚本语言
    以往我们要做一个数据分析,需要写一个map函数和一个紧随其后的reduce函数。很多时候数据处理需要多个mapreduce过程才能够实现,这样数据分析的门槛变的特别高

    有了Pig,就能使用更为丰富的数据:
    1.用于描述数据流的语言,称为PigLatin
    2.用于执行PigLatin程序的执行环境

    我们写好Piglatin代码,使用执行环境执行,这些操作被转换为一系列的mapreduce作业,作为程序员你不需要知道是如何转换的,这样一来你就可以把精力集中在数据上,而非执行细节上
    Pig的诱人之处就在于仅使用控制台上的5 6 行pigLatin代码就能够处理TB级数据
    我司暂不用,不做详细说明

    zookeeper

    hadoop的很多组件都是以动物命名的。
    zookeeper翻译成英文叫动物园管理员 动物员管理员的作用是什么呢??
    1.让象(hadoop),蜜蜂(hive) ,猪(pig)能够更友好的在一起
    2.ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务
    3.zookeeper其实就是一个软件,所有安装了zookeeper的服务器都叫 zookeeper server
    4.zookeeper server 还分为两类角色,由 leader 和 follower 组成,如果leader挂掉,会有选举机制,follower直接替换leader ,leader只有一个,剩下的都是follower
    5.zookeeper 的所有服务器中的所有数据结构(树形结构)是完全相同的,
    就是说我搭建一个zookeeper集群,集群里面所有机器的数据是一样的
    数据是树形结构的,与linux目录结构是一样一样的,zk的每个数据目录就是一个znode
    Zookeeper经常用作配置管理,后面我们将要介绍的Hbase就依赖于zookeeper进行配置管理

    我们常用 zookeeper 三台或者五台服务器组成一个集群,zookeeper有内部通讯机制,保证所有服务器中的所有数据结构(树形结构)是完全相同的,我们可以把一些配置信息放在zookeeper内

    如果企业规模大,各服务配置文件依赖关系多,错综复杂,这时候可以把所有配置存放在zookeeper内,然后各应用从zookeeper进行拉取即可
    zookeeper 很常用,可以参考我的课程:
    Kafka与zookeeper 5台集群生产实战视频课程

    相关文章

      网友评论

          本文标题:8.HADOOP组件pig、zookeeper

          本文链接:https://www.haomeiwen.com/subject/wsxqjxtx.html