Hadoop 学习
前言
现阶段数据状况
- 数据量大 且不规则 3 V
- Volume 单个文件数据量大,达到了几十GB,甚至几百GB
- Velocity 数据产生速度快,变更频率快
- Variety 数据种类越来越多,一般有结构化,半结构化和非结构化
- 样本数据已经不能满足需要
- 易变性: 伴随了数据的快速产生,数据会有一定的波动
- 准确性: data assurance,不同的方式,数据收集方式不同,分析和输出结果的正确成都很大程度上取决于收集到数据质量的高低
- 复杂性: 数据数据的ETL上也越来越有挑战性
遇到的挑战
- 基于数据的3V特性,之前的少量样本数据已经不能满足分析需要
- 硬盘的容量增加了,但是性能没有跟上
- 数据存储在多个硬盘中同时读取,并发没有办法控制
Hadoop 做了什么
- 可靠的共享存储 (HDFS)
- 每个数据都复制到多个节点
- 多个节点同时处理数据
- MapReduce 抽象的分析接口 分布式分析
- 计算随着数据走,减少数据迁移,尽量让数据计算发生在同一台机器上
- 一般数据写入后不再修改
Hadoop 简介
Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点
特别适合写一次,读多次的场景
适合
- 大规模数据
- 流式数据 一次写入,多次读
不适合
- 低时延的数据访问
- 大量的小文件
- 频繁修改的文件 最好是一次写入
Hadoop架构
hadooparchitecture.png- HDFS: 分布式文件存储
- Yarn: 分布式资源管理
- Mapreduce: 分布式计算
- Others: 利用YARN资源管理实现其他的数据处理方式
网友评论