![](https://img.haomeiwen.com/i1307647/97396fa9ab3abb8d.png)
本文架构
- 1.什么是pig
- 2.pig有什么作用
- 3.如何使用 pig
- 4.pig最佳实践与进阶
- 5.参考资料
![](https://img.haomeiwen.com/i1307647/f04c4423b60668d1.png)
1.什么是pig
<font color=#f00 >Pig是yahoo捐献给apache的一个项目,使用SQL-like语言,即pig Latin的脚本语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中。</font>
理解:
- pig主要用于数据分析,pig Latin语言和传统的数据库操作语言非常相似,<font color=#f00 >但是Pig Latin语言更侧重与数据的查询和分析,而不是对数据进行修改和删除。</font>
- pig架构包含了MapReduce编译器,只需要使用简单的pig脚本语言,底层会自动转为优化的mapreduce程序,使用起来很方便
2.pig有什么用
pig的语言层包括一个叫做pig Latin的脚本语言,可以编写pig脚本程序进行数据分析,pig带有的MapReduce编译器会将pig脚本编译会优化的MapReduce程序去执行。
pig 有如下特性
- 1.易于编程:使用pig脚本语言实现简单的各高度并行的数据分析认为非常容易。因为pig脚本语言本身就很简单,易于学习使用。
- 2.自动优化:编译器会自动优化编译成的MapReduce函数
- 3.可扩展性:用户可以轻松编写自己的函数来处理数据
3.如何使用pig
-
pig的使用首先要理解pig的工作模式和使用方式,然后就是对pig脚本语言的语法学习,此处不详细介绍pig脚本语言的语法。想学习具体语法请参考:
-
pig的安装请查看参考资料,注意:pig的安装前提是安装Java和Hadoop。
pig两种工作模式
- 本地模式:Pig运行于本地模式,只涉及到单独的一台计算机
- MapReduce模式:Pig运行于MapReduce模式,需要能访问一个Hadoop集群,并且需要装上HDFS
pig的三种交互方式
- Grunt shell方式:通过交互的方式,输入命令执行任务;
- Pig script方式:通过script脚本的方式来运行任务;
- 嵌入式方式:嵌入java源代码中,通过java调用来运行任务。
4.pig最佳实践与进阶
- 1.准备需要分析的数据,或者是数据的输入和输出路径
- 2.编写pig脚本程序
-
第一步:进入pig shell 模式
-
第一步:进入pig shell 模式
网友评论