大数据基础

一、什么是大数据？

（1）一种规模大到在获取、存储、管理、分析方面都大大超过传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征。
（2）大数据技术的战略不在于掌握庞大的数据信息，而在于对含有意义的数据进行专业化处理。

二、大数据的基本特征？

容量（Volume）、种类（Variety）、价值（Value）、速度（Velocity）

三、大数据的架构

大数据系统架构.png

四、大数据处理平台

大数据平台.png

五、大数据的几个概念

集群（Cluster）、数据密集型（DIC）、计算密集型（CIC）
向上扩展（Scale-up）：对硬件的扩展。主要是对cpu、内存、磁盘的扩展。
向外扩展（Scale-out）：通过计算机群的方式来提高计算能力。主要是对服务器个数的扩展。
机器学习（Machine Learning）
云计算（Cloud Coumputing）：通过互联网来提供动态易扩展且虚拟化的资源

Hadoop概述

一、什么是hadoop？

（1）一种分布式系统基础框架；
（2）核心设计：分布式文件系统HDFS和分布式处理框架MapReduce。HDFS为海量数据提供分布式存储，MapReduce为海量数据提供分布式计算；

二、Hadoop发展历程

hadoop发展历程.png

三、Hadoop生态圈

（1）核心项目
Hadoop common（如系统配置工具Configuration、远程过程调用RPC序列化机制、抽象文件系统FileSytem等）
MapReduce、HDFS
（2）其他项目
面向具体领域或应用：mahout、X-Rime、Crissbow、lvory等
数据交换、工作流等外围支持系统：Chukwa、Flume、Sqoop、Ooize等
Hbase：
1、一个分布式的面向列的数据库；
2、构建在HDFS之上；
3、适用于Hadoop应用需要实时读写随机访问非常大型数据集。
Zookeeper：
1、一个分布式服务框架，解决分布式计算的一致性问题（如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等）；
2、其他Hadoop相关项目的主要组件。
Apache Pig：
1、一种数据流语言和运行环境，用于检索非常大量的数据；
2、运行于HDFS和MapReduce集群上。
Apache Hive：
1、最早Facebook设计，建立在Hadoop基础上的数据仓库框架；
2、管理HDFS中存储的数据，并提供SQL语言查询数据。
Apache Flume：
1、一个高可用、高可靠、分布式的海量数据采集、聚合和传输的系统，经常用于日志采集器。
Apache Sqoop：
1、SQL-to-Hadoop的缩写，主要用于结构化数据存储和Hadoop间的数据转换；
2、一种在数据库和HDFS间高效传输数据的工具。
mahout：
1、一个机器学习和数据挖掘的库，用于聚类、回归测试和统计建模等常见算法的MapReduce的实现。
Ambari：
1、Hadoop管理工具，用于监控、部署、管理集群。