美文网首页
大数据是什么简介

大数据是什么简介

作者: air_b10f | 来源:发表于2019-06-23 20:53 被阅读0次

    一、是什么

    大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    发展历程:

    2008年被《自然》杂志专刊提出了BigData概念

    萌芽阶段:

    20世纪90年代到21世纪的样子,数据库技术成熟,数据挖掘理论成熟,也称数据挖掘阶段。

    突破阶段:

    2003——2006年,非结构化的数据大量出现,传统的数据库处理难以应对,也称非结构化数据阶段。

    成熟阶段:

    2006——2009年,谷歌公开发表两篇论文《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》,其核心的技术包括分布式文件系统GFS,分布式计算系统框架MapReduce,分布式锁Chubby,及分布式数据库BigTable,这期间大数据研究的焦点是性能,云计算,大规模的数据集并行运算算法,以及开源分布式架构(Hadoop)

    三篇   1、GFS:Google File System

                对数据进行分布式文件系统的存储,解决的大数据的存储问题

        2、MapReduce

                最初是因为Google要去爬取全球的网页然后对其进行排名(PageRank)而衍生出的问题,一种用于大数据计算的模型,核心思想是大事化小处理,最后在合并结果,先拆分再合并

        3、BigTable

                采用NoSQL数据库将数据存在一张大表之中,通过牺牲存储的空间来换取性能

    应用阶段:

    2009年至今,大数据基础技术成熟之后,学术界及及企业界纷纷开始转向应用研究,2013年大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,因此2013年也被称为大数据元年。

    二、为什么

    数据量大,要分析预测。

    第一阶段(传统):

    描述分析(发生了什么)

    诊断分析(为什么发生)

    第二阶段(大数据):

    预测分析(将会发生什么)

    定量分析(为什么能预测)

    三、怎么做

    解决核心问题:分布式存储、分布式计算

    hadoop体系结构  Hadoop应用位置 2019年常用技术

    1、分布式存储:

    HDFS:文件

    Hbase:数据库K-V,CURD

    2、分布式计算

    MapReduce (基于磁盘)离线

    Storm 流式计算(200MS),基于记录级别计算

    Spark (基于内存),Spark streaming分成数据处理块,可配置的秒级数据集,基于离线实现流式功能

    Flink (spark开始比较慢)毫秒级,复杂事件的处理(规则多),基于流式实现离线功能

    参考:

    https://blog.csdn.net/cincoutcin/article/details/80586050

    https://blog.csdn.net/ToChangetheWorld/article/details/79676170

    官网

    相关文章

      网友评论

          本文标题:大数据是什么简介

          本文链接:https://www.haomeiwen.com/subject/mupwqctx.html