HDFS 洞见

作者: 苟雨 | 来源:发表于2017-07-11 20:11 被阅读35次

    分布式文件系统起源于google文件系统,是后者的开源实现,主要解决大数据量数据的存放问题。他拥有一个管理器namenode ,其余多个datanode存放数据,它的一个数据会被备份3次,可以在配置中指定。如果一个datanode挂掉,新的datanode会重新从备份的datanode中复制数据。

    HDFS不适合大量的小文件,它默认的文件大小是64MB,如果有大量的小文件可能导致Namenode的内存紧张或者崩溃!并且可能大致大量的网络通信,形成性能瓶颈!在mapreduce计算中可能导致大量的map操作,降低速度!为避免这个问题,你可以在存入之前先聚合文件,或者存入Hbase或hive等数据库,还可以使用CombineFileInputFormat 类来聚合先文件!

    APIS HDFS提供原生的java api ,使用org.apache.hadoop.fs.FileSystem 类。它还提供c api 和rest api。你也可以使用sqoop等工具。也可以使用flume将数据流导入HDFS。

    也可以使用命令行进行交互式控制。

    例如:
    查看/目录下的文件或目录,

    hadoop fs -ls /
    

    将本地的文件推到HDFS文件系统中

    hadoop fs  -put /usr/local/yarn/hadoop-2.7.3/README.txt  /hello  # 第一个为本地文件系统
    

    相关文章

      网友评论

        本文标题:HDFS 洞见

        本文链接:https://www.haomeiwen.com/subject/ihomhxtx.html