美文网首页
Hadoop介绍与安装

Hadoop介绍与安装

作者: xieyangxuejun | 来源:发表于2018-11-28 20:27 被阅读0次

大数据

人工智能 = 机器学习 + 大数据 ---李开复

大数据技术

  • Hadop

几个简单的概念

  • 物联网

  • 区块

  • 分布式计算

    • p2p-迅雷

大数据的特点

  • V-VOLUME 海量

  • V-VELOCITY 时效性

  • V-VARIETY 多样性 数据的来源很多,形式很多样,视频音频图片。

大量的数据优于好的算法

存在的问题

  • “三无数据”

  • 数据量太大,对储存和算法要求极高

应用

  • 数据收集与储存

  • 数据预处理

  • 特征工程

  • 构建模型

  • 训练

  • 预测

  • 其他

Hadoop

  • Hadoop是Apache软件基金会旗下一个开源的分布式计算平台

  • 以HDFS(Hadoop Distributed File System)和MapReduce

  • 允许用户在不了解计算机底层的情况下,构建分布式计算系统

Hadoop历史

Hadoop生态圈

  • MapReduce(离线计算)

  • Spark(内存计算)-实时计算

  • YARN(分布式计算框架)- 资源的分发

配置Hadoop

<configuration>
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://localhost:9000</value>
 </property>
</configuration>
  • 修改hdfs-site.xml
<configuration>
 <property>
 <name>dfs.replication</name>
 <value>1</value>
 </property>
 <property>
 <name>dfs.namenode.name.dir</name>
 <value>file:/hadoop/data/dfs/namenode</value>
 </property>
 <property>
 <name>dfs.datanode.data.dir</name>
 <value>file:/hadoop/data/dfs/datanode</value>
 </property>
</configuration>
  • 修改mapred-site.xml
<configuration>
 <property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
</configuration>
  • 修改yarn-site.xml
<configuration>
 <property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>
 <property>
 <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
 <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>
</configuration>

启动Hadoop

1)进入到hadoop–>bin目录下,shift+右键 打开命令行

2)hadoop namenode -format //格式化hdfs

3)cd..\sbin

4)start-dfs.cmd //先启动dfs

start-yarn.cmd //再启动yarn

•网页客户端查看集群状态

1)http://localhost:50070查看HDFS状态

2)http://localhost:8088查看yarn状态
成功界面

相关文章

网友评论

      本文标题:Hadoop介绍与安装

      本文链接:https://www.haomeiwen.com/subject/ahzzqqtx.html