Hadoop

作者: Mr_码客 | 来源:发表于2017-08-05 14:07 被阅读0次

一、初识Hadoop
论Hadoop在大数据领域重要性，应该从入门谈起，Hadoop安
伪分布式部署yarn和MapReduce案例
hadoop集群配置
Hadoop用户的无密码信任关系实验
hadoop 安装问题总结
hadoop集群配置-总结
初认hadoop
Spark2.3.0-cdh5.16.1 standalone部
大数据技术原理与应用：大数据处理架构Hadoop生态圈

1.时序性
2.深度学习、数据挖掘-->基础模型-->基础平台
3.包容，非取代
4.Hbase链式组织，十亿秒级.
5.scope hive自动建好oracle一样的表，hadoop map-reduce 500 万数据，好多台机器跑，10分钟写好。
一条命令，建表-同步数据库（注意：关系型数据库）
按照oracle原有的数据类型原封不动的搬过Hbase
6.apache开源二次开发
7、（1）高扩展性和容错
（2）不强制要求数据先建模、清洗、和加载，能够快速分析海量数据记录。
（3）易于使用的编程模型，用于编写和执行分析程序，并且可以扩展到上千个节点和PB 级数据
（4）低廉的前期软件和硬件成本
8、数据源：BD(结构化)和log（非结构化）
//大数据所有的更新都是insert，时序性
HDFS:高于map-reduce和yarn
处理层：yarn数据调动系统，任务计划。调动CPU，内存，硬盘。
Bach Map-Reduce、HiveSQL（UDTF）、NOSQL（Hbase）、streamStorm（kafuka）
业务场景：查询终端、数据服务中间层、数据统计、数据挖掘、历史数据查询检索系统
9.大数据与云计算的架构：
虚拟化技术服务器（6台：虚拟200台服务器，内存，硬盘，cpu）
hadoop技术集群
10、Hadoop核心项目：
HDFS：分布式文件系统
MapReduce：分布式并行计算框架
11、HDFS设计目标：
1000节点，优势。
认为软硬件的故障是常态。
异地感知备份。
少量的超大文件。
12、HDFS节点类型
NameNode每个集群一个名字节点
Backup Node
DataNodes

在本地创建目录：mkdir -p ~/20170805/maqi
在本地创建一个新的文件：echo '1 maqi'> ~/20170805/maqi/maqi.txt
在集群中创建目录：hadoop fs -mkdir -p /20170805/maqi
hadoop fs -put 本地路径文件名 hadoop路径:
hadoop fs -put maqi.txt /20170805/maqi
hadoop fs -get hadoop路径文件名:
14.master只存元数据信息：namenode
slaver01、slaver02存放datanode和backup
15.flume
Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，
Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力
16、
agent
collector
storage
master
17、
source
channer
think
18、sqoop
19、mapReduce
hadoop jar /home/hadoop/bigdata/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /20170805/zhangyuelei/zhangyuelei.txt /201703/20170321/yourname/output2
20、HBase--NoSQL数据库
关系型数据库基于行存储，每次取一整行，放在内存，只是在显示的时候显示需要的列。
Hbase是基于列式存储
21、
可用、强一致性、分布可容忍（CAP）
传统：A、C。锁的机制，性能影响
22、
HDFS-namenode-datanode-block<-HBase(HRegin)<-Hmaster<-zookeeper<-客户端
23、
hive数据仓库，数据资产的管理平台，有规律的写入有规则的整理好。用作数据挖掘。SQL语言，转化为jar，执行mapReduce
HBase用作查询
hdfs:数据的存储平台
24、hadoop相关组件创建（sqoop）
sqoop create-hive-table --connect jdbc:mysql://slave02:3306/testdb --table tab_sean --username hive --password hive --hive-table yuelei.maqi_tab_sean_sqoo

sqoop import --connect jdbc:mysql://slave02:3306/testdb --table tab_sean --username hive --password hive --hive-import --hive-table yuelei.maqi_tab_sean_sqoo -m 1
25、
ODL：
IDL：数仓-纬度
26、
HDFS：基于磁盘
Spark:基于内存（计算）
27、跨行业数据挖掘：
商业理解
数据理解
数据准备
模型构建
模型验证
模型发布