大数据
人工智能 = 机器学习 + 大数据 ---李开复
大数据技术
- Hadop
几个简单的概念
-
云
-
物联网
-
区块
-
分布式计算
- p2p-迅雷
大数据的特点
-
V-VOLUME 海量
-
V-VELOCITY 时效性
-
V-VARIETY 多样性 数据的来源很多,形式很多样,视频音频图片。
大量的数据优于好的算法
存在的问题
-
“三无数据”
-
数据量太大,对储存和算法要求极高
应用
-
数据收集与储存
-
数据预处理
-
特征工程
-
构建模型
-
训练
-
预测
-
其他
Hadoop
-
Hadoop是Apache软件基金会旗下一个开源的分布式计算平台
-
以HDFS(Hadoop Distributed File System)和MapReduce
-
允许用户在不了解计算机底层的情况下,构建分布式计算系统

Hadoop历史
Hadoop生态圈
-
MapReduce(离线计算)
-
Spark(内存计算)-实时计算
-
YARN(分布式计算框架)- 资源的分发
配置Hadoop
-
下载: http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5-src.tar.gz, 通过镜像下载并解压,设置环境变量
-
新建变量 HADOOP_HOME = D:\Programs\Java\Hadoop\hadoop-2.9.2
-
新建环境变量 %HADOOP_HOME%\bin; %HADOOP_HOME%\sbin
-
如果没有新建JAVA_HOME,新建一个不然需要改{HADOOP_HOME}/etc/hadoop/hadoop-env.sh中的Java路径
-
下载https://github.com/steveloughran/winutils windows对应的bin进行覆盖(很重要)
-
-
配置core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
- 修改hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/hadoop/data/dfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/hadoop/data/dfs/datanode</value>
</property>
</configuration>
- 修改mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- 修改yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
启动Hadoop
1)进入到hadoop–>bin目录下,shift+右键 打开命令行
2)hadoop namenode -format //格式化hdfs
3)cd..\sbin
4)start-dfs.cmd //先启动dfs
start-yarn.cmd //再启动yarn
•网页客户端查看集群状态
1)http://localhost:50070查看HDFS状态
2)http://localhost:8088查看yarn状态
成功界面

网友评论