三副本机制详解(三个以上的随机存储)
第一副本:如果上传节点是DN,则上传该节点;如果上传节点是NN,则随机选择DN
第二副本:放置在不同机架的DN上
第三副本:放置在与第二副本相同机架的不同DN上
副本机制的作用
极大程度上避免了宕机所造成的数据丢失(除非命不好)
可以在数据读取时进行数据校验
原文链接:https://blog.csdn.net/weixin_39216383/article/details/78841983
hadoop伪分布式安装
https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/SingleCluster.html#Fully-Distributed_Operation
安装jdk在第4里有,这里介绍安装ssh
没有.ssh文件就ssh localhost一次
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
解压到opt下sxt文件下tar zxvf test.tar.gz -C test
注释:上面的命令将 test.tar.gz 这个压缩包解压到当前目录下的 test 目录下。
-C 选项的作用是:指定需要解压到的目录。
tar
-c: 建立压缩档案
-x:解压
-t:查看内容
-r:向压缩归档文件末尾追加文件
-u:更新原压缩包中的文件
这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。
-z:有gzip属性的
-j:有bz2属性的
-Z:有compress属性的
-v:显示所有过程
-O:将文件解开到标准输出
下面的参数-f是必须的
-f: 使用档案名字,切记,这个参数是最后一个参数,后面只能接档案名。
# tar -cf all.tar *.jpg
这条命令是将所有.jpg的文件打成一个名为all.tar的包。-c是表示产生新的包,-f指定包的文件名。
# tar -rf all.tar *.gif
这条命令是将所有.gif的文件增加到all.tar的包里面去。-r是表示增加文件的意思。
# tar -uf all.tar logo.gif
这条命令是更新原来tar包all.tar中logo.gif文件,-u是表示更新文件的意思。
# tar -tf all.tar
这条命令是列出all.tar包中所有文件,-t是列出文件的意思
# tar -xf all.tar
这条命令是解出all.tar包中所有文件,-t是解开的意思
压缩
tar -cvf jpg.tar *.jpg //将目录里所有jpg文件打包成tar.jpg
tar -czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用gzip压缩,生成一个gzip压缩过的包,命名为jpg.tar.gz
tar -cjf jpg.tar.bz2 *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用bzip2压缩,生成一个bzip2压缩过的包,命名为jpg.tar.bz2
tar -cZf jpg.tar.Z *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用compress压缩,生成一个umcompress压缩过的包,命名为jpg.tar.Z
rar a jpg.rar *.jpg //rar格式的压缩,需要先下载rar for linux
zip jpg.zip *.jpg //zip格式的压缩,需要先下载zip for linux
解压
tar -xvf file.tar //解压 tar包
tar -xzvf file.tar.gz //解压tar.gz
tar -xjvf file.tar.bz2 //解压 tar.bz2
tar -xZvf file.tar.Z //解压tar.Z
unrar e file.rar //解压rar
unzip file.zip //解压zip
注意这里是vi + /etc/proflie 我一直打成了vi *很尴尬
一直在调试
linux 下的 source,sh,./三者区别
https://blog.csdn.net/s740556472/article/details/78176087
15 依照图片修改环境变量 20<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
25.2 这里是伪分布式,只有一台主机,所以副本数量也只有一个 本机是他本身的主从 30 https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/core-default.xmlhttps://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/core-default.xml
35https://www.cnblogs.com/ftl1012/p/ss.html
ss是Socket Statistics的缩写。顾名思义,ss命令可以用来获取socket统计信息,它可以显示和netstat类似的内容。ss的优势在于它能够显示更多更详细的有关TCP和连接状态的信息,而且比netstat更快速更高效。
45 进入50070数据可视化
网友评论