传统的大数据
在大数据这个概念还没出来以前人们是怎么进行数据数据分析和计算的呢?
数据存储
首先数据量都没有很大,不同的数据散布在不同数据库中。如果真的数据大的话就只能花最贵的钱买最好的机器最好的数据库或者多分几个库装。
数据分析
人们还没有意识到数据可以做很多事情,所以数据的需求也比较少; 使用传统的数据库和单机程序来进行统计分析,就能满足大部分需求。如果公司比较注重数据的话,可能会弄一个数据中心,汇总各种数据,开发一套数据分析系统来完成自动化的报表。
转折
数据量越来越大,数据分析的成本越来越高。某一天Google扔了三篇论文出来引爆了大数据(Google总喜欢把自己不用了的技术分享出来)。这三篇论文提出了一个解决数据太多,存不下,计算不了方案,从此打开了大数据时代的门。人们根据这三篇论文开发了hadoop家族,后来成为大数据的标配,开始了全民大数据的时代。
现在的大数据
普遍的都利用hadoop家族建立起大数据平台,汇聚各种数据,统一进分析计算。
数据源&数据采集
自从大数据的处理工具完善之后,基本能称得上数据的东西都可以整合进大数据平台。比如,前端的用户行为日志、后端数据库、爬虫的数据等。
埋点
所谓的埋点就好比埋的地雷,你走过地雷响了,我就知道你走过哪里。正常来说就是你在网页或app上点击某个按钮是就把你这个点击行为记录下来发给服务器,这样就知道你都干了啥。当然埋点你可以自己写程序手动埋,也可以引入第三方工具实现自动话埋点。有时候前端不方便埋点就可以在服务器后端程序进行埋点。
数据库
数据库呢,主要记录一些状态数据,比如你的性别年龄啥的。
数据接入
这么多数据源想要进入大数据平台,当然都会有不同的渠道,同一个数据源也可能有不同的进入方式。
批量数据
比如数据库的数据都是些状态数据,业务的需求要求的实时性不高,可以每天批量的导入。导入的方式又可以分为增量和全量
全量
每次导入全部的数据,因为数据是在不断变化的,我们只截取导入时刻的数据。
增量
每次导入有变化的数据;当数据有变化时我们就标记一下每条数据变化的时间,依据这个时间判定这次是否导入。
实时流数据
像用户行为这种数据每时每刻都在不断的产生,业务的需求可以需要我们快速的反应,比如用户搜索了某个商品下一秒马上推送相关的商品。这时数据要快速的流动快速的计算,就出现了数据总线的概念,把数据接入数据总线实时的流入大数据平台。
数据存储
大数据平台的存储其实是比较单一的,就是一个分布式文件系统,当然这个文件系统又可以分各种存储格式来存。
数据处理
数据处理就是大数据平台的核心了。分实时的处理和批量处理。
数据查询
数据在大数据平台处理完成输出到业务系统进行使用,大数据平台也可以直接提供查询服务。
网友评论