注:本文涉及书中3.7~3.8小结
使用现成的工具将数据导入HDFS中
可以使用现成的工具,如Flume和Sqoop,而非写程序来将数据导入HDFS中。
1. Apache Flume
典型应用场景:从另外一个系统中收集日志数据
2. Apache Sqoop
将数据从结构化存储设备批量导入HDFS中
多个HDFS之间的并行复制
1. 在两个运行着相同HDFS版本的集群之间复制数据
通过distcp来实现
2. 在两个运行着不同HDFS版本的集群之间复制数据
(1)使用基于只读HTTP协议的HFTP文件系统从源文件系统中读取数据,作业只能运作在目标集群上
(2)使用webhdfs协议,对源集群和目标集群都可以使用HTTP协议进行通信
(3)使用HDFS HTTP代理服务作为源distcp或者目标distcp
3. 要注意保持HDFS集群的均衡性
网友评论