美文网首页
第1章 大数据概述

第1章 大数据概述

作者: 迪丽娜扎 | 来源:发表于2019-12-14 16:12 被阅读0次

    1.1 大数据时代

    1.1.1 第三次信息化浪潮

    2010年前后兴起的“大数据技术”,是继1980年PC普及、1995年互联网普及之后的第三次信息化浪潮。第三次浪潮以物联网、云计算和大数据为标志,解决新的时代信息爆炸的问题。

    1.1.2 大数据技术的技术支撑☆

    信息科技发展的三个核心问题是:存储、传输、处理。大数据技术的发展依托于这三项基础技术的发展。

    1. 存储技术:更低的成本、更大的容量、更快的读写速度。

    2. CPU处理能力:更多的晶体管、更多的核、更高的频率。

    3. 网络传输技术:更普及、更高速。

    1.1.3 数据产生方式的转变促成大数据时代

    数据产生方式经历了以下三种方式的转变

    1. 运营式系统:各种企业利用数据库技术存储结构化数据,用于满足自身业务需要。

    2. 用户原创内容:移动互联网和智能终端的普及,使得海量的用户产生了海量的原创内容。

    3. 感知式系统阶段:物联网的发展、无处不在的各种传感器,在不间断的产生着更海量的数据。

    上述数据产生方式的转变,代表了数据量的不断增加。

    1.1.4 大数据的发展历程

    1. 萌芽期:上世纪,基于数据挖掘理论数据库技术,发展出的BI工具、专家系统等。

    2. 成熟期:本世纪前十年,非结构化数据产生,分布式存储和分布式计算技术发展。

    3. 大规模应用期:大数据技术进入各行各业,数据驱动决策

    1.2 大数据的概念

    大数据的特点一般被描述为4V

    1. 数据量大(Volume):当今世界上数据量每两年就增加一倍。

    2. 数据类型繁多(Variety):结构化数据仅占10%,非结构化数据占90%,包括图片、音频、视频、日志、邮件等。非结构化的数据带来了非关系型数据库技术的发展

    3. 处理速度快(Velocity):实时推荐、交互查询等场景,要求在秒级完成万亿张表的聚合查询。

    4. 价值密度低(Value):大数据虽然大,但价值密度非常低。一个小区摄像头,采集的录像信息,99.999%都是毫无价值的。要基于用户发的微博评估出其信用水平,大部分微博未必能提供有效信息。

    1.3 大数据的影响

    1. 影响科学研究的范式 

    在实验科学、理论科学、计算科学三种范式之外,提供了第四种范式:数据密集型科学。不是先有假设再去验证假设,而是基于数据挖掘出之前未知的结论。

    2. 影响统计的思维方式

    全样而非抽样 存储、处理甚至分析方法的进步,使之前的抽样变得没有必要,有多少样本用多少样本

    效率而非精确 既是全样本,不用担心误差放大,相比高精确性,快速分析、秒级响应才是更重要的

    相关而非因果 推荐系统不会去寻求因为买了A所以会买B的因果性,而是寻求买了A则大概率会买B的相关性,并基于此进行推荐。

    除此之外,大数据技术对于社会发展、就业市场、人才培养等均产生影响。

    1.4 大数据的应用领域

    大数据应用于诸多领域,包括但不限于制造业的故障诊断与预测,金融业的高频交易、信贷风控,汽车业的无人驾驶,互联网业的商品推荐与广告投放,电信,能源,物流,安全等等。

    1.5 大数据关键技术☆☆

    按顺序描述如下

    1. 数据的采集与预处理:从数据源头过来的数据,抽取到临时中间层,清洗、转换、集成等。

    2. 数据的存储与管理:预处理后的数据,利用各种文件系统技术、数据库技术等进行存储和管理。

    3. 数据处理与分析技术:机器学习、数据挖掘、可视化

    1.6 大数据的计算模式☆☆☆

    1. 批处理计算:针对大规模数据的非实时批量处理,以MapReduce和spark为最典型的例子

    2. 流计算:针对动态数据的实时响应计算。

    3. 图计算:针对图结构的数据的计算,如GraphX等。

    4. 查询分析计算:针对大规模静态数据的准实时相应查询,如Hive、Impala等。

    1.7 大数据产业

    包括IT基础设施、数据源层、数据管理层、数据分析层、数据平台层、数据应用层等。

    1.8 大数据与云计算、物联网

    1.8.1 云计算

    1. 云计算的概念

    以服务的形式通过网络为用户提供所需的各种IT资源

    2. 云计算的关键技术

    虚拟化:一台计算机不是从物理上独立,而是在逻辑上独立,即所谓的“虚拟机”。

    多租户:在物理硬件上是一体,但在逻辑上是多台计算机,可以同时为多个用户提供服务

    分布式存储与分布式计算:云计算所用的计算机不能仅仅是大一号的PC,而是一个分布式集群。事实上,大数据技术起源于云计算。

    3. 云计算数据中心

    云计算的载体,为云计算提供计算、存储和贷款等硬件资源。

    1.8.2 物联网 略

    1.8.3 大数据、云计算、物联网三者的关系

    云计算为大数据提供了技术基础,大数据为云计算提供了用武之地

    物联网是大数据的重要数据来源,大数据技术为物联网数据分析提供支撑

    云计算为物联网提供海量数据的存储与分析能力,物联网为云计算技术提供广阔的应用空间。

    相关文章

      网友评论

          本文标题:第1章 大数据概述

          本文链接:https://www.haomeiwen.com/subject/iaicnctx.html