美文网首页
尚硅谷大数据技术之Sqoop

尚硅谷大数据技术之Sqoop

作者: 尚硅谷教育 | 来源:发表于2018-12-17 14:20 被阅读9次

5.2.14 命令&参数:merge
将HDFS中不同目录下面的数据合并在一起并放入指定目录中
数据环境:
new_staff
1 AAA male
2 BBB male
3 CCC male
4 DDD male
old_staff
1 AAA female
2 CCC female
3 BBB female
6 DDD female
尖叫提示:上边数据的列之间的分隔符应该为\t,行与行之间的分割符为\n,如果直接复制,请检查之。
命令:
如:
创建JavaBean:
$ bin/sqoop codegen
--connect jdbc:mysql://hadoop102:3306/company
--username root
--password 000000
--table staff
--bindir /home/admin/Desktop/staff
--class-name Staff
--fields-terminated-by "\t"

开始合并:
$ bin/sqoop merge
--new-data /test/new/
--onto /test/old/
--target-dir /test/merged
--jar-file /home/admin/Desktop/staff/Staff.jar
--class-name Staff
--merge-key id
结果:
1 AAA MALE
2 BBB MALE
3 CCC MALE
4 DDD MALE
6 DDD FEMALE

参数:
序号 参数 说明
1 --new-data <path> HDFS 待合并的数据目录,合并后在新的数据集中保留
2 --onto <path> HDFS合并后,重复的部分在新的数据集中被覆盖
3 --merge-key <col> 合并键,一般是主键ID
4 --jar-file <file> 合并时引入的jar包,该jar包是通过Codegen工具生成的jar包
5 --class-name <class> 对应的表名或对象名,该class类是包含在jar包中的
6 --target-dir <path> 合并后的数据在HDFS里存放的目录

5.2.15 命令&参数:metastore
记录了Sqoop job的元数据信息,如果不启动该服务,那么默认job元数据的存储目录为~/.sqoop,可在sqoop-site.xml中修改。
命令:
如:启动sqoop的metastore服务
$ bin/sqoop metastore

参数:
序号 参数 说明
1 --shutdown 关闭metastore

本教程由尚硅谷教育大数据研究院出品,如需转载请注明来源,欢迎大家关注尚硅谷公众号(atguigu)了解更多。

相关文章

  • 尚硅谷大数据技术之Sqoop

    第4章 Sqoop的简单使用案例4.1 导入数据在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数...

  • 尚硅谷大数据技术之Sqoop

    第5章 Sqoop一些常用命令及参数5.1 常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数,以供参...

  • 尚硅谷大数据技术之Sqoop

    5.2.5 命令&参数:import将关系型数据库中的数据导入到HDFS(包括Hive,HBase)中,如果导入的...

  • 尚硅谷大数据技术之Sqoop

    5.2.14 命令&参数:merge将HDFS中不同目录下面的数据合并在一起并放入指定目录中数据环境:new_st...

  • 尚硅谷大数据技术之Sqoop

    5.2.7 命令&参数:codegen将关系型数据库中的表映射为一个Java类,在该类中有各列对应的各个字段。如:...

  • 尚硅谷大数据技术之Sqoop

    第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、...

  • zookeeper

    B站视频资料最新看到 【尚硅谷】大数据技术之Zookeeper 3.5.7版本教程[https://www.bil...

  • 尚硅谷大数据技术之Hive

    10.4.7 统计上传视频最多的用户Top10以及他们上传的观看次数在前20的视频思路: 先找到上传视频最多的10...

  • 尚硅谷大数据技术之Hive

    第11章 常见错误及解决方案1)SecureCRT 7.3出现乱码或者删除不掉数据,免安装版的SecureCRT ...

  • 尚硅谷大数据技术之Flume

    第1章 概述1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、...

网友评论

      本文标题:尚硅谷大数据技术之Sqoop

      本文链接:https://www.haomeiwen.com/subject/tkaqkqtx.html