使用IO流操作HDFS

作者: Manfestain | 来源:发表于2020-04-03 16:16 被阅读0次

    除了可以使用系统API进行HDFS操作,还可以通过Java的IO流进行文件的上传和下载。适用于HDFS的自定义操作,其实API的底层也是使用IO流进行操作的。


    1. 把本地的文件上传到HDFS

    @Test
    public void putFileToHDFS() throws IOException, URISyntaxException, InterruptedException {
            // 1 获取fs对象
            Configuration conf = new Configuration();
            FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), conf, "lg");
    
            // 2 获取输入流
            FileInputStream fis = new FileInputStream(new File("e:/cunzhang.txt"));
    
            // 3 获取输出流
            FSDataOutputStream fos = fs.create(new Path("/school/shizhang.txt"));
    
            // 4 流对拷
            IOUtils.copyBytes(fis, fos, conf);
    
            // 5 关闭资源
            IOUtils.closeStream(fos);
            IOUtils.closeStream(fis);
            fs.close();
        }
    

    2. 把HDFS的文件下载到本地

    @Test
    public void getFileFromHDFS() throws URISyntaxException, IOException, InterruptedException {
            // 1 获取fs对象
            Configuration conf = new Configuration();
            FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), conf, "lg");
    
            // 2 获取输入流
            FSDataInputStream fis = fs.open(new Path("/school/shizhang.txt"));
    
            // 3 获取输出流
            FileOutputStream fos = new FileOutputStream(new File("/Users/manfestain/Workspace/java/Hadoop/hadoop101/src/main/resources/LocalFile/shizhang.txt"));
    
            // 4 流对拷
            IOUtils.copyBytes(fis, fos, conf);
    
            // 5 关闭资源
            IOUtils.closeStream(fos);
            IOUtils.closeStream(fis);
            fs.close();
        }
    

    3. 文件的定位读取,我们的HDFS上有一个288M的文件hadoop-2.7.7.tar.gz,该文件分为两部分存储在磁盘上(块的大小为128M),我们可以通过客户端分别将第一部分和第二部分下载到本地。

    第一部分的数据为128M,第二部分的数据为60M,下面分别下载:

    3.1 下载第一块数据
    @Test
    public void readFileSeek1() throws URISyntaxException, IOException, InterruptedException {
            // 1获取fs对象
            Configuration conf = new Configuration();
            FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), conf, "lg");
    
            // 2 获取输入流
            FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.7.tar.gz"));
    
            // 3 创建输出流
            FileOutputStream fos = new FileOutputStream(new File("e:/hadoop-2.7.7.tar.gz.part1"));
    
            // 4 流的对拷(只拷贝128M)
            byte[] buf = new byte[1024];
            for (int i = 0; i < 1024 * 128; i++) {
                fis.read(buf);
                fos.write(buf);
            }
    
            // 5 关闭资源
            IOUtils.closeStream(fos);
            IOUtils.closeStream(fis);
            fs.close();
        }
    
    3.2 下载第二块数据
    @Test
    public void readFileSeek2() throws IOException, URISyntaxException, InterruptedException {
            // 1获取fs对象
            Configuration conf = new Configuration();
            FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), conf, "lg");
    
            // 2 获取输入流
            FSDataInputStream fis = fs.open(new Path("/hadoop-2.7.7.tar.gz"));
    
            // 3 设置指定读取的起点
            fis.seek(1024*1024*128);
    
            // 4 获取输出流
            FileOutputStream fos = new FileOutputStream(new File("e:/LocalFile/hadoop-2.7.7.tar.gz.part2"));
    
            // 4 流的对拷
            IOUtils.copyBytes(fis, fos, conf);
    
            // 关闭资源
            IOUtils.closeStream(fos);
            IOUtils.closeStream(fis);
            fs.close();
        }
    

    相关文章

      网友评论

        本文标题:使用IO流操作HDFS

        本文链接:https://www.haomeiwen.com/subject/rlxkphtx.html