1、从pgsql中导出整张表到hdfs上
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
--target-dir /sqoop/cities \
-m 1
执行结果:
注意事项:
1、目标文件夹必须是不存在的
2、由于sqoop传输数据时默认采用4个map任务,-m x 表示使用x个map任务处理,有几个任务就会在HDFS的执行结果上有几个part-m文件
3、这里 -m 1 是由于传输的数据表没有设置主键,而sqoop默认采用主键字段进行拆分来达到并行任务的目的(默认采用4个map任务)。此时,既可以手动设置拆分字段,也可以将 -m 的值设为1。
4、--target-dir 该参数制定了文件输出到HDFS上的路径,同时还可以缺省该参数,该参数缺省时,问价将会输出到HDFS上当前用户的home目录当中,例如/user/root/。
5、在指定目标路径的参数中还有一个 --warehouse-dir 用来指定目标文件父目录
手动设置拆分字段例子如下:
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
--target-dir /sqoop/cities \
--split-by id \
-m 4
执行结果如下:
此处只有三个文件是由于表中只有3条数据。。。--target-dir 参数缺省的情况:
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
-m 1
执行结果:
--warehouse-dir 指定输出文件夹的父目录:
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
--warehouse-dir /sqoop/ \
-m 1
执行结果:
2、从pgsql上导出数据表的部分数据到HDFS
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
--where "country = 'USA'" \
-m 1
执行结果:
3、保护密码不暴露的三种方式:
使用 -P 参数,从标准输入读取密码:
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--table cities \
-m 1 \
-P
执行效果:
将密码保存到文件当中,使用参数 --passwrod-file 来读取密码文件:
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--table cities \
-m 1 \
--password-file file:///home/root/password.file
别名模式(基于HDFS和基于本地两种模式)
sqoop 1.4.5和hadoop 2.6.0以及之后的版本才支持
HDFS:
hadoop credential create pgsql.pwd.alias -provider jceks://hdfs/user/password/pgsql.pwd.jceks
sqoop import \
-Dhadoop.security.credential.provider.path=jceks://hdfs/user/password/pgsql.pwd.jceks \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password-alias pgsql.pwd.alias \
--table cities \
-m 1
本地模式:
4、两种二进制格式文件存储
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
-m 1 \
--as-sequencefile
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
-m 1 \
--as-avrodatafile
5、在传输过程中对数据进行压缩
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
-m 1 \
--compress
执行结果:
默认压缩格式为Gzipsqoop可以使用hadoop支持的任何压缩格式,但hadoop不支持的压缩格式,sqoop无法使用 Not Splittable压缩格式,不能利用hadoop的并行性能sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
-m 1 \
--compression-codec org.apache.hadoop.io.compress.BZip2Codec
6、如何加快传输数据
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
-m 1 \
--direct
直连模式,传输速度更快,但是目前只有mysql和pgsql支持,而且据说HBase也不支持这种模式,反正限制比较多,具体情况大家可以亲身实践下
7、覆盖默认的数据映射类型
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
-m 1 \
--map-column-java id=Long
数据库字段在生成的java文件中会映射为各种属性,且默认的数据类型与数据库类型保持对应,比如数据库中某字段的类型为bigint,则在Java文件中的数据类型为long型,通过这个属性,可以改变数据库字段在java中映射的数据类型,格式如:–map-column-java DB_ID=String,id=Integer
8、导入数据中空值的处理
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table cities \
-m 1 \
--null-string '\\N' \
--null-non-string '\\N'
sqoop提供了--null-string来处理字符类型的空值,提供了--null-non-string来处理非字符类型的空值。值得注意的是,这两个参数可以让你用任意的值去替换空值。
另外,export导出数据则使用另外的参数来处理空值
9、一次性传输数据库中所有表
sqoop import-all-tables \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres
-m 1
传输除指定表之外的所有表:
sqoop import-all-tables \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--exclude-tables cities,countries \
-m 1
10、只导入新数据
sqoop import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table users \
--incremental append \
--check-column id \
--last-value 1
11、pg数据表更新后同步导入hdfs
创建同步更新job(需要输入密码):
sqoop job \
--create users \
-- \
import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password postgres \
--table users \
--incremental append \
--check-column id \
--last-value 0
执行job进行数据更新导入:
sqoop job --exec users
查看目前创建的自动更新导入的job:
sqoop job --list
删除job:
sqoop job --delete visits
查看已存在job的详细信息:
sqoop job --show users
创建在执行时不需要输入密码的job:
sqoop job \
--create users \
-- \
import \
--connect jdbc:postgresql://yanls.bigdata:5432/sqoop \
--username postgres \
--password-file file:///home/root/password.file \
--table users \
--incremental append \
--check-column id \
--last-value 0
执行job:
无需输入密码,直接执行另外一种不需要输入密码的方式(安全性较低,不推荐):
12、
网友评论