美文网首页我爱编程
ftp提取文件到hdfs

ftp提取文件到hdfs

作者: 在路上很久了 | 来源:发表于2018-03-22 15:22 被阅读0次

实际场景中,我们经常需要通过ftp协议把不同数据源的文件统一汇入到hdfs数据中心,经过实践,有以下的三种方法,分别列出其优缺点及适用场景。

1、 先把文件ftp到本地,然后用命令hdfsdfs –put [local_path] [hdfs_path]

优点:文件在本地可以进行本地化的一系列操作后,再放回hdfs中

缺点:文件传输经过两层,并且从源服务器到本地提取是单机串行,比较消耗时间。

适用于文件放入hfds前需要预处理的情景,如:.zip压缩文件不被hadoop支持的,所以我们可以先在本地转压缩方式然后再放入hdfs中。

2、 hdfs dfs –cp [ftp://username:password@hostname/ftp_path] [hdfs:///hdfs_path]

优点:简单,提取速度快

缺点:CLI执行不会显示进度

适用场景:适用于小文件的ftp拷贝。

3、 hadoop distcp [ftp://username:password@hostname/ftp_path] [hdfs:///hdfs_path]

优点:简单,能显示拷贝进度,并且是分布式提取的,数据比较快。

缺点: 如果拷贝的文件是不断有其他程序写入,会报错,因为该命令最后要对数据进行checksum导致两边不一致,当然,该命令是主要用于集群间拷贝的。

适用场景:大量文件或大文件的拷贝。

相关文章

  • ftp提取文件到hdfs

    实际场景中,我们经常需要通过ftp协议把不同数据源的文件统一汇入到hdfs数据中心,经过实践,有以下的三种方法,分...

  • 分布式常用命令

    Hadoop创建文件: 上传文件到hdfs 查看hdfs文件 删除hdfs文件/文件夹 解压zip文件到指定目录 ...

  • 创建hive表,快速添加测试数据,通过加载hdfs数据

    上传数据到hdfs文件系统 创建hdfs文件系统文件夹 导入本地的文件到hdfs 查看刚才创建的test文件夹是否...

  • 一个基于XXL-JOB实现的定时文件同步操作执行器

    job-file-sync 一个基于XXL-JOB实现的文件操作执行器,支持 本地文件、FTP、共享、HDFS 上...

  • hdfs文件写入分析

    HDFS写文件涉及到HDFS中NameNode、DataNode、DFSClient等组件 简单的HDFS写文件大...

  • Hadoop Java API

    获取HDFS客户端对象 创建文件夹 读取HDFS文件 创建文件、写文件 重命名文件 从本地复制文件到hdfs 复制...

  • 关于HDFS的几个操作纯代码

    一.功能实现: 1:将本地文件上传到HDFS上 2:从HDFS上读取文件到本地 3:删除HDFS上的文件 4:遍历...

  • 通过API访问HDFS

    通过API操作HDFS 今天的主要内容 HDFS获取文件系统 HDFS文件上传 HDFS文件下载 HDFS目录创建...

  • Hadoop 基础(二)

    HDFS 读写流程 我们知道在HDFS中我们的文件按数据块进行存储,那么当我们写入或者读取一个文件的时候HDFS到...

  • 【Tryhackme】All in One(Vinegar加密,

    服务发现 ftp服务枚举 ftp可以匿名登录无任何文件发现也不可以上传文件到ftp用其他用户名登录ftp会提示Th...

网友评论

    本文标题:ftp提取文件到hdfs

    本文链接:https://www.haomeiwen.com/subject/wkmaqftx.html