美文网首页
大数据是什么简介

大数据是什么简介

作者: air_b10f | 来源:发表于2019-06-23 20:53 被阅读0次

一、是什么

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

发展历程:

2008年被《自然》杂志专刊提出了BigData概念

萌芽阶段:

20世纪90年代到21世纪的样子,数据库技术成熟,数据挖掘理论成熟,也称数据挖掘阶段。

突破阶段:

2003——2006年,非结构化的数据大量出现,传统的数据库处理难以应对,也称非结构化数据阶段。

成熟阶段:

2006——2009年,谷歌公开发表两篇论文《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》,其核心的技术包括分布式文件系统GFS,分布式计算系统框架MapReduce,分布式锁Chubby,及分布式数据库BigTable,这期间大数据研究的焦点是性能,云计算,大规模的数据集并行运算算法,以及开源分布式架构(Hadoop)

三篇   1、GFS:Google File System

            对数据进行分布式文件系统的存储,解决的大数据的存储问题

    2、MapReduce

            最初是因为Google要去爬取全球的网页然后对其进行排名(PageRank)而衍生出的问题,一种用于大数据计算的模型,核心思想是大事化小处理,最后在合并结果,先拆分再合并

    3、BigTable

            采用NoSQL数据库将数据存在一张大表之中,通过牺牲存储的空间来换取性能

应用阶段:

2009年至今,大数据基础技术成熟之后,学术界及及企业界纷纷开始转向应用研究,2013年大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,因此2013年也被称为大数据元年。

二、为什么

数据量大,要分析预测。

第一阶段(传统):

描述分析(发生了什么)

诊断分析(为什么发生)

第二阶段(大数据):

预测分析(将会发生什么)

定量分析(为什么能预测)

三、怎么做

解决核心问题:分布式存储、分布式计算

hadoop体系结构  Hadoop应用位置 2019年常用技术

1、分布式存储:

HDFS:文件

Hbase:数据库K-V,CURD

2、分布式计算

MapReduce (基于磁盘)离线

Storm 流式计算(200MS),基于记录级别计算

Spark (基于内存),Spark streaming分成数据处理块,可配置的秒级数据集,基于离线实现流式功能

Flink (spark开始比较慢)毫秒级,复杂事件的处理(规则多),基于流式实现离线功能

参考:

https://blog.csdn.net/cincoutcin/article/details/80586050

https://blog.csdn.net/ToChangetheWorld/article/details/79676170

官网

相关文章

网友评论

      本文标题:大数据是什么简介

      本文链接:https://www.haomeiwen.com/subject/mupwqctx.html