大数据:
mysql存500-1000万条数据,无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是海量、高增长、多样化的信息资产。
主要解决,
海量数据的存储和海量数据的分析计算问题。
特点:
大量,高速,多样,低价值密度
应用场景
旅游、仓储物流、零售、商品广告推荐、保险、金融、房产
大数据部门业务流程分析:
产品人员提出需求>数据部搭建数据平台、分析数据指标>数据可视化
大数据部门结构
大数据部门结构.PNG1.1什么是Hadoop
- Hadoop的概念
- 开源的,可扩展的,分布式系统基础架构
- 允许使用简单的编程模型跨计算机集群分布式处理大数据集
- 可扩展:从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储
- 可靠的:不依靠硬件来提供高可用(high-availability),而是在应用层检测和处理故障,从而在计算机集群之上提供高可用服务
- Hadoop能做什么?
- 搭建大型数据仓库
- PB级数据的存储、处理、分析、统计等业务
- 搜索引擎
- 日志分析
- 数据挖掘
- 商业智能(BI):通常被理解为将企业中现有的数据(订单、库存、交易账目、客户和供应商)转化为知识,帮助企业做出明智的业物经营决策的工具。从技术层面上讲,是数据仓库、数据挖掘等技术的综合运用。
- Hadoop发展史
Hadoop三大发行版本:Apache Cloudera Hortonworks
Google的三篇论文 GFS MapReduce BigTable
1.2 Hadoop核心组件
- Hadoop是所有引擎的共性问题的廉价解决方案
- 如何存储持续增长的海量网页 :单节点VS分布式存储
- 如何对持续增长的海量网页进行排查:超算VS分布式计算
- HDFS解决分布式存贮问题
- MapReduce 解决分布式计算问题
- Hadoop Common: Hadoop的核心组件
-
Hadoop Distributed File System(HDFS): 分布式文件系统
- HDFS的特点:扩展性&容错性&海量数据存储
- 将文件切分成制定大小的数据块,并在多台机器上保存多个副本
- 数据切分、多副本、容错等操作对用户是透明的
-
Hadoop MapReduce:一个并行处理大数据集的基于YARN的系统
- 分布式计算框架
- MapReduce是GoogleMapReduce论文的开源实现
- MapReduce特点:扩展性&容错性&海量数据离线处理
-
Hadoop YARN:资源调度系统
- 负责整个集群资源的管理和调度
- YARN特点:扩展性&容错性&多框架统一调度
1.3 Hadoop优势
- 高可靠
- 数据存储:数据块多副本
- 数据计算: 某个节点崩溃,会自动重新调度作业计算
- 高扩展性
- 存储/计算资源不够时,可以横向的线性扩展机器
- 一个集群中可以包含数以千计的节点
- 集群可以使用廉价机器,成本低
- 高效性
- Hadoop是并行工作的,以加快任务完成速度
- 高容错性
- 能够将失败的任务重新分配
- Hadoop生态系统成熟
网友评论