Apache Sqoop Cookbook 英文版-翻译学习!!
问题
一些数据库系统,提供特定的连机器,这些连接器并不是sqoop发新包的一部分,并且对于这些连接器
充分的利用的数据特征。如果想使用这些优化的特征,需要单独下载,安装这些连机器。
解决方案
在集群节点上运行sqoop,可以在本地系统中的任意的位置上特定的连接器。如果计划在多个节点上允许sqoop,
那么就需要在对应的节点上都安装连机器。准确的说,不需要在集群中的所有的节点安装连接器,由于sqoop会自动
在集群中传递合适的jar包。
除了在本地安装jar包外,还需要在sqoop中注册它们。首先创建一个目录管理器,在sqoop的配置目录下。
配置目录可能在不同的路径下,这取决于sqoop的安装路径。使用安装包的方式,通常在/etc/sqoop目录下,使用
tarball的方式的话通常在conf/目录下,在这个目录中,你需要创建一个文件,文件的命名可以是连接器名字后的加上最佳信息描述。
讨论
sqoop最强大的一点是,它几乎可以和目前所有的数据库系统,数据仓库系统集成工作。为了抽象化各个应用的特征
行为,sqoop引入连接器的概念。所有对数据的操作,都sqoop委托到特定的连接器上。sqoop自身绑定了很多的连机器,无须下载额外的组件。sqoop绑定的最常用的连接器是常用的JDBC连机器,这些JDBC连机器只是应用了JDBC的接口而已。使得对于兼容JDBC的数据库都会起作用。除了通过的连接器外,Sqoop还提供了这对Mysql,Oracle,SQLServer,DB2,Postgresql的特殊连机器,这些特殊的连接器是针对每个数据库系统的特有特征而开发的。无须准确的显示选择连机器,sqoop会自动的给出JDBC URL的基础信息。
除了内置连接器外, 还有许多专用连接器可用用于下载,其中一些在本书中进一步描述,例如, OraOop在7.9节中描述,
Teradata 的 Cloudera 连接器描述在7.13节。更高级的用户可以开发自己的连接器Sqoop 通过开发者指南.
大多数 (如果不是全部) 连接器依赖于底层 JDBC 驱动程序, 与远程数据库服务器进行连接,同时
安装专用连接器和相应的 JDBC 驱动程序是必要的。连机器是一个特殊的Sqoop的可插拔模块,通过数据的特定参数,
其可以被用以委托一些功能,这可能可以提升一些效率。JDBC驱动器同样也是一个可插拔模块,但是其实独立于sqoop的,并暴露的数据库的接口,这些接口对Java应用程序提供了一个便捷的约定接口。
网友评论