美文网首页大数据技术原理与应用
第1讲大数据概述|大数据技术原理与应用-学习笔记

第1讲大数据概述|大数据技术原理与应用-学习笔记

作者: 努力奋斗的durian | 来源:发表于2018-09-03 22:43 被阅读131次

    文章原创,最近更新:2018-09-3

    1.大数据时代
    2.大数据概念和影响
    3.大数据的应用
    4.大数据的关键技术
    5.大数据与云计算、物联网

    学习参考链接:
    1. 大数据技术原理与应用

    1.大数据时代


    在2010年之后就出现了大数据时代.


    大概每隔15年就会出现一次浪潮,第一次浪潮,出现了鼠标/键盘/显示器/主机箱,并且迅速普及,同时也促进了我们生产生活效率.


    大数据时代是以技术为支撑,主要是分为三个模块,一是存储,二是计算,三是网络

    比如个人电脑存储信息会越来越多,存储的东西越来越乱,企业数据也会越来越多,不会进行删除,而是期望有一天去发现它的价值.



    那么现在的电脑存储数据达到什么样的水平呢?具体如下截图;



    存储量的增加,同时也会导致数据急剧的增加.就会想什么样的数据都存储.

    CPU处理能力大幅提升



    网络宽度不断增加


    大数据时代分为三个阶段:


    运营式系统阶段实超市购物,在数据库系统中生成购物信息,每次购物都会生成一条条记录,这些都是由运营系统生成这些数据的.



    用户原创内容阶段

    比如2000年开始就有了博客,后来又发展出了微博,微信,这些让每个网民都成了自媒体.


    感知式系统阶段,也就是互联网的大普及,让大数据最终到来.



    为什么互联网的大普及,让大数据最终到来呢?

    因为物联网底层是感知层,如RFID、摄像头、传感器,这些都是处于物联网最底层的设备.


    这些设备都是每时每秒都不断的产生数据,这些数据的产生已经超出了人所能控制的范畴.

    因此由物联网的兴起,才使得我们迎来了大数据时代.


    2.大数据概念和影响

    什么叫大数据?大数据有几个典型的特性.什么特性呢?我们一般把它称为4V.什么叫4V呢?分别是大量化,快速化,多样化,价值密度低.

    什么是数据量大呢?它有它的发展定律,有一个大数据摩尔定律.这个是由一个国际机构IDC作出的预测.



    大数据是由机构化和非结构化数据组成.



    对科学研究的影响?提出了四种范式.分别是实验/理论/计算/数据这四种范式.


    大数据思维方式



    以前是抽样,然后抽取的数据进行存储/计算/分析,现在可以全样存储,我们有足够的空间.



    效率而非精确?以前做抽样分析的时候,会把一个算法的精确度放得非常高,设计各种方式不断提高算法精确度.因为是抽样分析,如果精确度不高,一旦把它放到了全样,误差就会被放大.所以要追求精确度.

    全样分析误差多大就是多大,因此不会刻意去追求它的精确度.因此要追求效率而非精确度,因为数据具有时效性,一旦错过了,数据就没有效果了.



    相关而非因果,比如在淘宝买了一本书,淘宝会推荐您其他用户买这本书的同时也会买另外一本书.这就是关联的存在.它不会告诉你为什么其他用户也买了这本书.


    3.大数据的应用


    纸牌屋美剧是由大数据分析软件得到的报告,促成了这个影视投拍方去投拍这部作品.



    google用大数据分析路线去分析流感.怎么预测的呢?用它掌握的非常庞大的用户数据,就是美国公民上网搜索的资料.


    4.大数据的关键技术


    大数据的关键技术,是在数据存储与管理,数据处理与分析,这两层代表了很多非常核心的大数据技术.


    分布式存储:解决海量数据的存储问题



    大数据技术以谷歌公司技术为代表


    下面了解一下大数据计算模式问题,具体如下:



    批处理计算,就是把一堆数据一起拿过来进行批量处理.不适合做实时的交互式计算,批处理不能满足时效性的要求.


    spark批处理实时性要比MapReduce更好,并且解决了MapReduce的一些缺点.MapReduce无法高效迭代运算,但是spark可以.


    流计算是专门针对流进行计算的,比如日志流,用户点击流.它会源源不断的到达系统,需要实时分析并且马上给出响应.



    不能用批处理,而是用流计算框架去做.它是实现秒级的针对实时数据流的响应.


    图计算,可以高效地处理图结构数据的产品



    ,现实很多应用都可以被转化为图结构,比如社交网络数据,地理信息系统数据.这些数据都可以用图计算的软件去处理.



    查询分析计算,就是交互相互查询
    典型的案例有,如下:

    5.大数据与云计算、物联网

    什么是云计算呢?云计算主要解决了两大核心问题.海量式的分布式存储以及分布式的处理问题.



    云计算的典型特征,也就是虚拟化和多租户,构成了非常核心的层面


    云计算的概念又是什么呢?


    云计算的优势又是什么呢?直接购买服务,不需要自己去建机房/维护等等



    可以租用云端资源,比如百度云,百度给企业提供一切的设施建设和维护服务.就需要在网络上购买百度云服务,就可以把数据全部存储在百度云.


    云计算的方式有很多,包括公有云,私有云和混合云.



    公有云,是构建好一个云平台以后,是面向所有的公众服务的.比如百度云.



    私有云,比如很多企业,如电信,移动公司内部,自己构建的一个云,给内部使用的云.

    混合云是指构建好以后有一部分给自己用,有一部分给外面的用户使用.

    云计算从底层往上走,可以分成三种:Saa5、PaaS和laaS





    Saas软件即服务,将软件卖给一个公司,比如云财务软件,可以通过电脑手机都可以申请它的云软件服务.以服务的方式把财务软件系统卖给你.不需要在本地安装.






    整个学期的环境都是基于Linux系统,如果本机使用的是window系统,最好可以用虚拟化技术.




    物联网

    • 物联网概念
      物联网(loT:The Internet of Things)物联网就是物物相连的互联网,是互联网的延伸

    比如快递条形码,可用来唯一标识快递包裹



    二维码是一个非常规矩的矩形空间



    公交卡\校园卡

    大数据分为数据本身/数据处理技术

    相关文章

      网友评论

        本文标题:第1讲大数据概述|大数据技术原理与应用-学习笔记

        本文链接:https://www.haomeiwen.com/subject/dnsbwftx.html