sqoop导入数据

作者: lukeyan | 来源:发表于2018-07-14 10:43 被阅读13次

    1、从pgsql中导出整张表到hdfs上

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    --target-dir /sqoop/cities \

    -m 1

    执行结果:

    注意事项:

    1、目标文件夹必须是不存在的

    2、由于sqoop传输数据时默认采用4个map任务,-m x 表示使用x个map任务处理,有几个任务就会在HDFS的执行结果上有几个part-m文件

    3、这里 -m 1 是由于传输的数据表没有设置主键,而sqoop默认采用主键字段进行拆分来达到并行任务的目的(默认采用4个map任务)。此时,既可以手动设置拆分字段,也可以将 -m 的值设为1。

    4、--target-dir 该参数制定了文件输出到HDFS上的路径,同时还可以缺省该参数,该参数缺省时,问价将会输出到HDFS上当前用户的home目录当中,例如/user/root/。

    5、在指定目标路径的参数中还有一个 --warehouse-dir 用来指定目标文件父目录

    手动设置拆分字段例子如下:

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    --target-dir /sqoop/cities \

    --split-by id \

    -m 4

    执行结果如下:

    此处只有三个文件是由于表中只有3条数据。。。

    --target-dir 参数缺省的情况:

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    -m 1

    执行结果:

    --warehouse-dir 指定输出文件夹的父目录:

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    --warehouse-dir /sqoop/ \

    -m 1

    执行结果:


    2、从pgsql上导出数据表的部分数据到HDFS

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    --where "country = 'USA'" \

    -m 1

    执行结果:


    3、保护密码不暴露的三种方式:

    使用 -P 参数,从标准输入读取密码:

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --table cities \

    -m 1 \

    -P

    执行效果:

    将密码保存到文件当中,使用参数 --passwrod-file 来读取密码文件:

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --table cities \

    -m 1 \

    --password-file file:///home/root/password.file

    别名模式(基于HDFS和基于本地两种模式)

    sqoop 1.4.5和hadoop 2.6.0以及之后的版本才支持

    HDFS:

    hadoop credential create pgsql.pwd.alias -provider jceks://hdfs/user/password/pgsql.pwd.jceks

    sqoop import \

    -Dhadoop.security.credential.provider.path=jceks://hdfs/user/password/pgsql.pwd.jceks \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password-alias pgsql.pwd.alias \

    --table cities \

    -m 1

    本地模式:



    4、两种二进制格式文件存储

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    -m 1 \

    --as-sequencefile

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    -m 1 \

    --as-avrodatafile


    5、在传输过程中对数据进行压缩

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    -m 1 \

    --compress

    执行结果:

    默认压缩格式为Gzip

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    -m 1 \

    --compression-codec org.apache.hadoop.io.compress.BZip2Codec

    sqoop可以使用hadoop支持的任何压缩格式,但hadoop不支持的压缩格式,sqoop无法使用 Not Splittable压缩格式,不能利用hadoop的并行性能

    6、如何加快传输数据

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    -m 1 \

    --direct

    直连模式,传输速度更快,但是目前只有mysql和pgsql支持,而且据说HBase也不支持这种模式,反正限制比较多,具体情况大家可以亲身实践下


    7、覆盖默认的数据映射类型

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    -m 1 \

    --map-column-java id=Long

    数据库字段在生成的java文件中会映射为各种属性,且默认的数据类型与数据库类型保持对应,比如数据库中某字段的类型为bigint,则在Java文件中的数据类型为long型,通过这个属性,可以改变数据库字段在java中映射的数据类型,格式如:–map-column-java DB_ID=String,id=Integer


    8、导入数据中空值的处理

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table cities \

    -m 1 \

    --null-string '\\N' \

    --null-non-string '\\N'

    sqoop提供了--null-string来处理字符类型的空值,提供了--null-non-string来处理非字符类型的空值。值得注意的是,这两个参数可以让你用任意的值去替换空值。

    另外,export导出数据则使用另外的参数来处理空值


    9、一次性传输数据库中所有表

    sqoop import-all-tables \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres

    -m 1

    传输除指定表之外的所有表:

    sqoop import-all-tables \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --exclude-tables cities,countries \

    -m 1


    10、只导入新数据

    sqoop import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table users \

    --incremental append \

    --check-column id \

    --last-value 1


    11、pg数据表更新后同步导入hdfs

    创建同步更新job(需要输入密码):

    sqoop job \

    --create users \

    -- \

    import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password postgres \

    --table users \

    --incremental append \

    --check-column id \

    --last-value 0

    执行job进行数据更新导入:

    sqoop job --exec users

    查看目前创建的自动更新导入的job:

    sqoop job --list

    删除job:

    sqoop job --delete visits

    查看已存在job的详细信息:

    sqoop job --show users

    创建在执行时不需要输入密码的job:

    sqoop job \

    --create users \

    -- \

    import \

    --connect jdbc:postgresql://yanls.bigdata:5432/sqoop \

    --username postgres \

    --password-file file:///home/root/password.file \

    --table users \

    --incremental append \

    --check-column id \

    --last-value 0

    执行job:

    无需输入密码,直接执行

    另外一种不需要输入密码的方式(安全性较低,不推荐):


    12、

    相关文章

      网友评论

        本文标题:sqoop导入数据

        本文链接:https://www.haomeiwen.com/subject/mpjrpftx.html