使用IO流操作HDFS

作者: Manfestain | 来源:发表于2020-04-03 16:16 被阅读0次

除了可以使用系统API进行HDFS操作,还可以通过Java的IO流进行文件的上传和下载。适用于HDFS的自定义操作,其实API的底层也是使用IO流进行操作的。


1. 把本地的文件上传到HDFS

@Test
public void putFileToHDFS() throws IOException, URISyntaxException, InterruptedException {
        // 1 获取fs对象
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), conf, "lg");

        // 2 获取输入流
        FileInputStream fis = new FileInputStream(new File("e:/cunzhang.txt"));

        // 3 获取输出流
        FSDataOutputStream fos = fs.create(new Path("/school/shizhang.txt"));

        // 4 流对拷
        IOUtils.copyBytes(fis, fos, conf);

        // 5 关闭资源
        IOUtils.closeStream(fos);
        IOUtils.closeStream(fis);
        fs.close();
    }

2. 把HDFS的文件下载到本地

@Test
public void getFileFromHDFS() throws URISyntaxException, IOException, InterruptedException {
        // 1 获取fs对象
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), conf, "lg");

        // 2 获取输入流
        FSDataInputStream fis = fs.open(new Path("/school/shizhang.txt"));

        // 3 获取输出流
        FileOutputStream fos = new FileOutputStream(new File("/Users/manfestain/Workspace/java/Hadoop/hadoop101/src/main/resources/LocalFile/shizhang.txt"));

        // 4 流对拷
        IOUtils.copyBytes(fis, fos, conf);

        // 5 关闭资源
        IOUtils.closeStream(fos);
        IOUtils.closeStream(fis);
        fs.close();
    }

3. 文件的定位读取,我们的HDFS上有一个288M的文件hadoop-2.7.7.tar.gz,该文件分为两部分存储在磁盘上(块的大小为128M),我们可以通过客户端分别将第一部分和第二部分下载到本地。

第一部分的数据为128M,第二部分的数据为60M,下面分别下载:

3.1 下载第一块数据
@Test
public void readFileSeek1() throws URISyntaxException, IOException, InterruptedException {
        // 1获取fs对象
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), conf, "lg");

        // 2 获取输入流
        FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.7.tar.gz"));

        // 3 创建输出流
        FileOutputStream fos = new FileOutputStream(new File("e:/hadoop-2.7.7.tar.gz.part1"));

        // 4 流的对拷(只拷贝128M)
        byte[] buf = new byte[1024];
        for (int i = 0; i < 1024 * 128; i++) {
            fis.read(buf);
            fos.write(buf);
        }

        // 5 关闭资源
        IOUtils.closeStream(fos);
        IOUtils.closeStream(fis);
        fs.close();
    }
3.2 下载第二块数据
@Test
public void readFileSeek2() throws IOException, URISyntaxException, InterruptedException {
        // 1获取fs对象
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), conf, "lg");

        // 2 获取输入流
        FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.7.tar.gz"));

        // 3 设置指定读取的起点
        fis.seek(1024*1024*128);

        // 4 获取输出流
        FileOutputStream fos = new FileOutputStream(new File("e:/LocalFile/hadoop-2.7.7.tar.gz.part2"));

        // 4 流的对拷
        IOUtils.copyBytes(fis, fos, conf);

        // 关闭资源
        IOUtils.closeStream(fos);
        IOUtils.closeStream(fis);
        fs.close();
    }

相关文章

  • 使用IO流操作HDFS

    除了可以使用系统API进行HDFS操作,还可以通过Java的IO流进行文件的上传和下载。适用于HDFS的自定义操作...

  • java_io

    java.io.File类的使用IO原理及流的分类  |---文件流   操作对象是文件     FileInp...

  • Hadoop HDFS文件操作API

    使用JAVA操作HDFS: 使用Shell操作HDFS: Usage: hadoop fs [generic op...

  • Java基础语法_Day15

    一、IO流概述及FileWriter类使用 IO流概述及分类 IO流用来处理设备之间的数据传输Java对数据的操作...

  • java基础-day20-IO流和StringBuffer

    IO流和StringBuffer 1. IO流 1.1 IO流概述 1.2 IO流分类 1.3 文件操作输入输出字...

  • JAVA IO基础知识

    JAVA IO流采用的是装饰器设计模式,通过IO操作可以完成对特定设备进行数据的读写操作,深入理解IO的设计和使用...

  • HDFS分布式文件存储系统

    2.1 HDFS的使用 启动HDFS 2.2 HDFS shell操作 调用文件系统(FS)Shell命令应使用b...

  • IO流操作

    FileInputStream和FileOutputStream复制文件 BufferedInputStream和...

  • *内存流(包含文件操作示例图)

    可以使用内存流实现IO操作。在之前使用过了文件操作流实现了对于文件数据的输入和输出操作,但是如果现在某一种应用需要...

  • java IO流操作

    什么是IO流? Java中I/O操作主要是指使用java.io包下的内容,进行输入、输出操作。输入也叫做读取数据,...

网友评论

    本文标题:使用IO流操作HDFS

    本文链接:https://www.haomeiwen.com/subject/rlxkphtx.html