大数据概念
大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据主要解决:海量数据的采集、存储和分析计算问题。
bit-->byte-->kb-->mb-->gb-->tb-->pb-->eb-->zb-->yb
大数据特点
Volume(大量化)
截止目前,人类生产的所有印刷资料的数据量是200pb,而历史上全人类总共说话的话大约是5eb。当前,典型个人计算机硬盘的容量为TB级别,而一些大数据企业的数据量已经接近EB数量级。
Volocity(速度化)
这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙报告”,预计到2025年,处理海量数据的效率就是企业的生命。
Variety(多样化)
这种类型的多样化也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置等,这些多类型的数据对数据处理能力提出了更高要求。
Value(低价值密度)
低价值密度的高低与数据总量的带下成反比。如何快速对现有价值数据“提纯”成为大数据背景下待解决的难题。
大数据应用场景
- 抖音、B站等内容推荐
- 电商站内广告推荐
- 零售货品排列
- 物流仓储,仓库货物存放、线路车辆排班
- 保险、金融、房产
- 人工智能+5G+物联网+虚拟现实
- ......
Hadoop是什么
0)创始人Doug Cutting;
1)成长过程:Lucene–>Nutch—>Hadoop
2)Hadoop是一个由Apache基金会所开发的分布式系统基础架构;
3)主要解决海量数据的存储和分析计算问题;
4)广义上讲,Hadoop通常是指一个广泛的概念(Hadoop生态圈,hadoop、zk、hive等)
5)Hadoop起源于Google的三大论文,具体见下表
描述 | 演变 | |
---|---|---|
GFS | Google的分布式文件系统Google File System | HDFS |
MapReduce | Google的MapReduce开源分布式并行计算框架 | MapReduce |
BigTable | 一个大型的分布式数据库 | HBase |
Hadoop三大发行版本
- Apache:最原始的版本,所有发行版均基于这个版本进行改进
- CDH:Cloudera’s Distribution Including Apache Hadoop,简称CDH
- CDP:Cloudera推出了新一代的数据平台产品CDP Data Center,简称CDP
Hadoop优缺点
优点:
- 高可靠:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障,也不会导致数据丢失。
- 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
- 高效性:在MapReduce的思想下,Hadoop是兵法工作的,以加快任务处理速度。
- 高容错性:能够自动将失败的任务重新分配。
缺点:
- Hadoop(hdfs)不适用于低延迟数据访问
- Hadoop(NameNode)不能高效存储大量小文件
- Hadoop不支持多用户写入并任意修改文件,只能追加文件
小结
GFS、MapReduce和BigTable是Google的三种大数据处理系统,在Hadoop中就实现了其中的两种(GFS\MapReduce)。
Hadoop的学习是大数据入门的基础。本篇简短介绍了大数据及hadoop相关概述,理解相关概念对后面MapReduce和HDFS学习有很大帮助。
网友评论