命令简介

作者: 大诗兄_zl | 来源:发表于2018-04-12 11:17 被阅读18次

解读:Hadoop Archive

hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在NameNode中占用150byte内存。如果存储大量的小文件,它们会吃掉NameNode节点的大量内存。MR案例:小文件处理方案

Hadoop Archive或者HAR,是一个高效地将小文件放入HDFS块中的文件存档工具。它能将多个小文件打包成一个HAR文件,这样在减少NameNode内存使用的同时,仍然允许对小文件进行透明的访问,比如作为MapReduce的输入。

/* 归档命令

  • -archiveName 0825.har : 指定归档后的文件名
  • -p /test/in/ : 被归档文件所在的父目录
  • small mapjoin : 要被归档的目录,一至多个(small和mapjoin)
  • /test/in/har : 生成的归档文件存储目录
    */
    hadoop archive -archiveName 0825.har -p /test/in/ small mapjoin /test/in/har

hadoop distcp
分布式拷贝

hadoop checknative
这个命令用来核对可用的本地Code,默认情况下只核对libhadoop的可用性

hadoop credential
该命令在凭证提供者内部管理凭证(credentials),密码(passwords)和秘密(secrets)

hadoop fs
同 hdfs dfs

hadoop jar
在hadoop中运行jar包:hadoop jar x.jar ×××.MainClassName inputPath outputPath
x.jar为包的名称,包括路径,直接写包名称,则为默认路径
×××.MainClassName为运行的类名称
inputPath为输入路径
outputPath为输出路径。
这里需要注意的是:
输入路径和输出路径,一定要对应。

http://www.cnblogs.com/skyl/p/4758364.html

相关文章

  • 命令简介

    解读:Hadoop Archive hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元...

  • linux mlocate.db文件文件过大

    linux命令locate简介以及上述问题的解决 命令简介 locate(locate) 命令用来查找文件或目录。...

  • Git命令

    Git命令简介 git命令是一些命令行工具...

  • nodejs进程管理pm2

    简介 安装 命令 参考

  • uniq

    uniq 命令 命令简介 uniq命令可以用于过滤或者输出重复行

  • Redis简介 命令

    Redis 安装 图中展示的是3.0.7 可以选择安装 或者去Redis官网 安装最新版本 Redis特性 速度快...

  • Crontab 命令简介

    一、Crond 简介 crontab命令常见于Unix和类Unix的操作系统之中,用于设置周期性被执行的指令。该命...

  • awk命令简介

    在今天的工作中,我想从文件file1中读取某一列。如果在以前,碰到这样的问题,我一定会通过如下语句实现: new ...

  • Git 命令简介

    仓库 配置 暂存:add 删除untracked的文件:clean 提交:commit 分支:Branch Sta...

  • Git命令简介

    创建版本库 通过git init命令把这个目录变成Git可以管理的仓库 把文件添加到版本库 git add把文件提...

网友评论

    本文标题:命令简介

    本文链接:https://www.haomeiwen.com/subject/krdxkftx.html