文章原创,最近更新:2018-09-3
1.大数据时代
2.大数据概念和影响
3.大数据的应用
4.大数据的关键技术
5.大数据与云计算、物联网
学习参考链接:
1. 大数据技术原理与应用
1.大数据时代

在2010年之后就出现了大数据时代.

大概每隔15年就会出现一次浪潮,第一次浪潮,出现了鼠标/键盘/显示器/主机箱,并且迅速普及,同时也促进了我们生产生活效率.

大数据时代是以技术为支撑,主要是分为三个模块,一是存储,二是计算,三是网络
比如个人电脑存储信息会越来越多,存储的东西越来越乱,企业数据也会越来越多,不会进行删除,而是期望有一天去发现它的价值.

那么现在的电脑存储数据达到什么样的水平呢?具体如下截图;

存储量的增加,同时也会导致数据急剧的增加.就会想什么样的数据都存储.


CPU处理能力大幅提升

网络宽度不断增加

大数据时代分为三个阶段:


运营式系统阶段实超市购物,在数据库系统中生成购物信息,每次购物都会生成一条条记录,这些都是由运营系统生成这些数据的.


用户原创内容阶段
比如2000年开始就有了博客,后来又发展出了微博,微信,这些让每个网民都成了自媒体.

感知式系统阶段,也就是互联网的大普及,让大数据最终到来.

为什么互联网的大普及,让大数据最终到来呢?
因为物联网底层是感知层,如RFID、摄像头、传感器,这些都是处于物联网最底层的设备.

这些设备都是每时每秒都不断的产生数据,这些数据的产生已经超出了人所能控制的范畴.
因此由物联网的兴起,才使得我们迎来了大数据时代.


2.大数据概念和影响
什么叫大数据?大数据有几个典型的特性.什么特性呢?我们一般把它称为4V.什么叫4V呢?分别是大量化,快速化,多样化,价值密度低.

什么是数据量大呢?它有它的发展定律,有一个大数据摩尔定律.这个是由一个国际机构IDC作出的预测.



大数据是由机构化和非结构化数据组成.



对科学研究的影响?提出了四种范式.分别是实验/理论/计算/数据这四种范式.

大数据思维方式


以前是抽样,然后抽取的数据进行存储/计算/分析,现在可以全样存储,我们有足够的空间.


效率而非精确?以前做抽样分析的时候,会把一个算法的精确度放得非常高,设计各种方式不断提高算法精确度.因为是抽样分析,如果精确度不高,一旦把它放到了全样,误差就会被放大.所以要追求精确度.
全样分析误差多大就是多大,因此不会刻意去追求它的精确度.因此要追求效率而非精确度,因为数据具有时效性,一旦错过了,数据就没有效果了.


相关而非因果,比如在淘宝买了一本书,淘宝会推荐您其他用户买这本书的同时也会买另外一本书.这就是关联的存在.它不会告诉你为什么其他用户也买了这本书.

3.大数据的应用

纸牌屋美剧是由大数据分析软件得到的报告,促成了这个影视投拍方去投拍这部作品.

google用大数据分析路线去分析流感.怎么预测的呢?用它掌握的非常庞大的用户数据,就是美国公民上网搜索的资料.

4.大数据的关键技术

大数据的关键技术,是在数据存储与管理,数据处理与分析,这两层代表了很多非常核心的大数据技术.

分布式存储:解决海量数据的存储问题


大数据技术以谷歌公司技术为代表

下面了解一下大数据计算模式问题,具体如下:


批处理计算,就是把一堆数据一起拿过来进行批量处理.不适合做实时的交互式计算,批处理不能满足时效性的要求.

spark批处理实时性要比MapReduce更好,并且解决了MapReduce的一些缺点.MapReduce无法高效迭代运算,但是spark可以.

流计算是专门针对流进行计算的,比如日志流,用户点击流.它会源源不断的到达系统,需要实时分析并且马上给出响应.

不能用批处理,而是用流计算框架去做.它是实现秒级的针对实时数据流的响应.

图计算,可以高效地处理图结构数据的产品

,现实很多应用都可以被转化为图结构,比如社交网络数据,地理信息系统数据.这些数据都可以用图计算的软件去处理.

查询分析计算,就是交互相互查询
典型的案例有,如下:

5.大数据与云计算、物联网



什么是云计算呢?云计算主要解决了两大核心问题.海量式的分布式存储以及分布式的处理问题.

云计算的典型特征,也就是虚拟化和多租户,构成了非常核心的层面

云计算的概念又是什么呢?

云计算的优势又是什么呢?直接购买服务,不需要自己去建机房/维护等等

可以租用云端资源,比如百度云,百度给企业提供一切的设施建设和维护服务.就需要在网络上购买百度云服务,就可以把数据全部存储在百度云.

云计算的方式有很多,包括公有云,私有云和混合云.

公有云,是构建好一个云平台以后,是面向所有的公众服务的.比如百度云.

私有云,比如很多企业,如电信,移动公司内部,自己构建的一个云,给内部使用的云.

混合云是指构建好以后有一部分给自己用,有一部分给外面的用户使用.

云计算从底层往上走,可以分成三种:Saa5、PaaS和laaS






Saas软件即服务,将软件卖给一个公司,比如云财务软件,可以通过电脑手机都可以申请它的云软件服务.以服务的方式把财务软件系统卖给你.不需要在本地安装.





整个学期的环境都是基于Linux系统,如果本机使用的是window系统,最好可以用虚拟化技术.






物联网
- 物联网概念
物联网(loT:The Internet of Things)物联网就是物物相连的互联网,是互联网的延伸



比如快递条形码,可用来唯一标识快递包裹

二维码是一个非常规矩的矩形空间

公交卡\校园卡

大数据分为数据本身/数据处理技术





网友评论