一、是什么
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
发展历程:
2008年被《自然》杂志专刊提出了BigData概念
萌芽阶段:
20世纪90年代到21世纪的样子,数据库技术成熟,数据挖掘理论成熟,也称数据挖掘阶段。
突破阶段:
2003——2006年,非结构化的数据大量出现,传统的数据库处理难以应对,也称非结构化数据阶段。
成熟阶段:
2006——2009年,谷歌公开发表两篇论文《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》,其核心的技术包括分布式文件系统GFS,分布式计算系统框架MapReduce,分布式锁Chubby,及分布式数据库BigTable,这期间大数据研究的焦点是性能,云计算,大规模的数据集并行运算算法,以及开源分布式架构(Hadoop)
三篇 1、GFS:Google File System
对数据进行分布式文件系统的存储,解决的大数据的存储问题
2、MapReduce
最初是因为Google要去爬取全球的网页然后对其进行排名(PageRank)而衍生出的问题,一种用于大数据计算的模型,核心思想是大事化小处理,最后在合并结果,先拆分再合并
3、BigTable
采用NoSQL数据库将数据存在一张大表之中,通过牺牲存储的空间来换取性能
应用阶段:
2009年至今,大数据基础技术成熟之后,学术界及及企业界纷纷开始转向应用研究,2013年大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,因此2013年也被称为大数据元年。
二、为什么
数据量大,要分析预测。
第一阶段(传统):
描述分析(发生了什么)
诊断分析(为什么发生)
第二阶段(大数据):
预测分析(将会发生什么)
定量分析(为什么能预测)
三、怎么做
解决核心问题:分布式存储、分布式计算
hadoop体系结构 Hadoop应用位置 2019年常用技术1、分布式存储:
HDFS:文件
Hbase:数据库K-V,CURD
2、分布式计算
MapReduce (基于磁盘)离线
Storm 流式计算(200MS),基于记录级别计算
Spark (基于内存),Spark streaming分成数据处理块,可配置的秒级数据集,基于离线实现流式功能
Flink (spark开始比较慢)毫秒级,复杂事件的处理(规则多),基于流式实现离线功能
参考:
https://blog.csdn.net/cincoutcin/article/details/80586050
https://blog.csdn.net/ToChangetheWorld/article/details/79676170
官网
网友评论