1.时序性
2.深度学习、数据挖掘-->基础模型-->基础平台
3.包容,非取代
4.Hbase链式组织,十亿秒级.
5.scope hive自动建好oracle一样的表,hadoop map-reduce 500 万数据,好多台机器跑,10分钟写好。
一条命令,建表-同步数据库(注意:关系型数据库)
按照oracle原有的数据类型原封不动的搬过Hbase
6.apache开源二次开发
7、(1)高扩展性和容错
(2)不强制要求数据先建模、清洗、和加载,能够快速分析海量数据记录。
(3)易于使用的编程模型,用于编写和执行分析程序,并且可以扩展到上千个节点和PB 级数据
(4)低廉的前期软件和硬件成本
8、数据源:BD(结构化)和log(非结构化)
//大数据所有的更新都是insert,时序性
HDFS:高于map-reduce和yarn
处理层:yarn数据调动系统,任务计划。调动CPU,内存,硬盘。
Bach Map-Reduce、HiveSQL(UDTF)、NOSQL(Hbase)、streamStorm(kafuka)
业务场景:查询终端、数据服务中间层、数据统计、数据挖掘、历史数据查询检索系统
9.大数据与云计算的架构:
虚拟化技术服务器(6台:虚拟200台服务器,内存,硬盘,cpu)
hadoop技术集群
10、Hadoop核心项目:
HDFS:分布式文件系统
MapReduce:分布式并行计算框架
11、HDFS设计目标:
1000节点,优势。
认为软硬件的故障是常态。
异地感知备份。
少量的超大文件。
12、HDFS节点类型
NameNode每个集群一个名字节点
Backup Node
DataNodes
在本地创建目录:mkdir -p ~/20170805/maqi
在本地创建一个新的文件:echo '1 maqi'> ~/20170805/maqi/maqi.txt
在集群中创建目录:hadoop fs -mkdir -p /20170805/maqi
hadoop fs -put 本地路径 文件名 hadoop路径:
hadoop fs -put maqi.txt /20170805/maqi
hadoop fs -get hadoop路径 文件名:
14.master只存元数据信息:namenode
slaver01、slaver02存放datanode和backup
15.flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,
Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力
16、
agent
collector
storage
master
17、
source
channer
think
18、sqoop
19、mapReduce
hadoop jar /home/hadoop/bigdata/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /20170805/zhangyuelei/zhangyuelei.txt /201703/20170321/yourname/output2
20、HBase--NoSQL数据库
关系型数据库基于行存储,每次取一整行,放在内存,只是在显示的时候显示需要的列。
Hbase是基于列式存储
21、
可用、强一致性、分布可容忍(CAP)
传统:A、C。锁的机制,性能影响
22、
HDFS-namenode-datanode-block<-HBase(HRegin)<-Hmaster<-zookeeper<-客户端
23、
hive数据仓库,数据资产的管理平台,有规律的写入有规则的整理好。用作数据挖掘。SQL语言,转化为jar,执行mapReduce
HBase用作查询
hdfs:数据的存储平台
24、hadoop相关组件创建(sqoop)
sqoop create-hive-table --connect jdbc:mysql://slave02:3306/testdb --table tab_sean --username hive --password hive --hive-table yuelei.maqi_tab_sean_sqoo
sqoop import --connect jdbc:mysql://slave02:3306/testdb --table tab_sean --username hive --password hive --hive-import --hive-table yuelei.maqi_tab_sean_sqoo -m 1
25、
ODL:
IDL:数仓-纬度
26、
HDFS:基于磁盘
Spark:基于内存(计算)
27、跨行业数据挖掘:
商业理解
数据理解
数据准备
模型构建
模型验证
模型发布
网友评论