Apache Sqoop Cookbook 英文版-翻译学习!!
本章将带领你熟悉在使用Sqoop前的基本前提。你将学习到下载安装Sqoop在及自己电脑或是Hadoop集群上。
Sqoop有一个非常详细的用户指南描述所有可用参数和基本用法,本书不是重复指南,本书集中于在真实情况下使用
这些参数,并帮助你在你的环境中高效的部署和使用Sqoop
1.1 下载安装 Sqoop
问题
你希望安装sqoop在你自己的电脑上或Hadoop集群上的任意节点。
解决方案
Sqoop支持在Linux系统上运行,有多种安装方法可供选择。一个是通过源码安装,源码包伴随每个发行版本一起发布,需要将源码编译成可执行文件后使用;
为了简单起见,Sqoop提供了针对几个主要的Hadoop支持版本的二进制包。
除了上述将的两种安装包,还有开源项目和商业公司提供了特殊的功能包。例如 Apache BitTop 这个项目,为Redhat,CentOS,SUSE提供rpm包,
为Debian和ubuntu提供deb包,使用安装包,能够无缝对接系统,如:配置文件会存放到/etc/,日志会存放到/var/log
讨论
本书侧重于使用sqoop,而不是开发sqoop。如果你宁愿编译源代码成可执行文件,“开发者指南”是很好的资源。
你可以从Apache Sqoop官网下载Sqoop可执行文件压缩包,所有的的可执行文件压缩包的名字中都嵌入了.bin__hadoop字符串
这个名字对应主要的hadoop发行版本.例如 , 对于Hadoop 1.x ,那个对应的sqoop的压缩包的名字将包含 .bin_hadoop-1.0.0字符串,
上述名字默认的约定是对应1.0.0版本,但实际上,它全面兼容1.0.x的发行版,同时也兼容1.1.0. 下载和Hadoop对应版本的sqoop是很重要的,由于Hadoop已经改变了接口在一些主要版本中,所以针对Hadoop1编译的sqoop,不适用于Hadoop2.
下载sqoop可执行包到你希望的任何的计算机上,解压缩安装。可以使用sqoop直接抽取目录而不需要额外的操作。由于sqoop并不是一个集群系统,所以不需要
在Hadoop集群上的所有机器上安装sqoop,在集群中的一台安装sqoop就足够了。sqoop作为一个Hadoop应用程序,其依赖Hadoop库和配置才能运行。
Hadoop的安装命令可以在Hadoop项目文档中找到,如果想向HBase和Hive中导入数据,Sqoop 也需要那些 功能库。对于常用的功能,没有功能包依赖问题。
通过安装包会比使用tarball而简单,由于它们已经和系统集成,并且可以自动下载安装,并解决功能包依赖的问题。但由于授权许可问题,JDBC驱动器并
不会直接安装,对于这点的说明,请查阅 1.2章节.
Bigtop 项目提供了项目仓库,其可以很容易的添加到系统中,以解决功能包依赖的问题,BitTop的安装说明可以在其项目文档中发现。一旦Bigtop成功安装
,安装Sqoop将是非常简单的,并且可以通过以下命令进行安装。
- 在RedHat,CentOS或其他Yum源系统上安装
$ sudo yum install sqoop
- 在ubuntu,debian这样的 deb 系统行
$ sudo apt-get insatll sqoop
- 在SLES系统行安装
$ sudo zyper insatll sqoop
sqoop的主要的配置文件是 sqoop-site.xml 可以在配置文件夹下找到,然您可以进一步自定义Sqoop,在大多数情况下,默认值就足够了。所有的有效的配置都在sqoop-site.xml文件中,我们在本书后面会解释更常用的属性更详细
网友评论