在互联网圈,每个阶段都会有新的技术名词出现。
在互联网发展1.0阶段,完成了传统广告企业数据化,技术名词有单体式应用、LADP、邮件、电子商务、IM。
在互联网发展2.0阶段,完成了内容产业数据化,技术名词有维基百科、搜索引擎、微博、微信、朋友圈,技术名词。
在移动互联网阶段,完成了生活服务业数据化,技术名词有短视频、大数据平台、数据挖掘等;而在物联网阶段,则完成万物数据化,技术名词有微服务、容器、云计算、人工智能、5G等。
每个阶段的演变都代表着一次革命,代表着生活工作方式的又一次迭代更新,而在整个演进史中,一直被专宠的名词就是数据。
互联网诞生后,只要连上网的终端都会产生数据,人们也逐渐意识到单纯数据是没有价值的,将数据进行再次挖掘分析后能获取更多的信息,甚至可以演变成商业数据产品进行售卖,数据的位置也被捧得越来越高,成为了老板们最关注的内容。
而数据平台的演变也经历了三个阶段,包含2000年~2010年的数据仓库、2010年~2015年的大数据平台、2015年~至今的数据中台,那么对于数据的处理与认知又是怎么迭代的呢?
1.0阶段数据仓库
在这个阶段,数据主要是为企业提供数据报表、分析等数据,辅助企业进行经营决策,比如电信行业的经营分析系统、银行的风控管理系统等。
数据仓库,顾名思义就是存储数据的仓库,通过数据库来进行数据的存放,可以理解为数据库的升级版本,数据库是面向交易的,为了交易、快速读写而设计数据结构,数据仓库是面向数据挖掘、数据分析、辅助决策而设计数据结构。数据仓库的数据量比数据库大很多很多。
那么在数据仓库中有哪些关键概念呢?
概念1-维度,维度就是看事情的角度,维度的分类又包括单级维、层级维、变化维,单级维就是一对一的表,最小颗粒度,层级维就是有分层结构的维度表,比如地区维度、省市、国家维度,变化维就是随着时间属性会变化的维度,比如商品维,商品类型会随着时间而改变。
概念2-度量,度量是衡量运行情况的数值指标,比如销售额、成本、利润。
概念3-事实表,事实表由多个维度和度量组成一个期望分析的主题,包含事务粒度事实表、周期快照事实表、累积快照粒度事实表,比如在电商中,某个商品的一笔销售记录,包含订单人、商品类型、价格,这就是最小的数据单元,不可再拆分,而周期快照事实表则是按一定的周期进行记录,比如月度商品营业额、季度商品营业额等,累计快照事实表就是记录整个生命周期过程中不同阶段的关键信息,从而在不同时间不同维度进行数据报表的分析,比如某地区年度营业额、公司年度营业额。
那么企业中是如何搭建数据仓库的呢?
如下图所示,企业数据仓库架构图一般划分为4层,从下往上分别是数据采集层、数据存储与分析层、数据共享层、数据库应用层,数据采集层是获取业务系统的原生数据,通过日志、数据库、网络传输等途径来获取数据。
数据存储与分析层是为了将获取的数据、经过分析的数据存储起来,提供上层使用,结构化数据使用Sqoop进行数据抽取,非结构化数据则使用Flume进行抽取,对于实时数据的计算则使用Spark引擎进行,对于离线数据则使用Hive大数据引擎进行计算,对于数据的存储使用HDFS,数据的传输使用高吞吐量的Kafka进行。
数据共享层则是通过关系型数据库管理系统、redis、大数据存储系统HBase存储数据。应用层是为了满足具体具体而构建的数据,通过报表、接口、即席查询、数据可视化的方式对外暴露,常见的比如季度性经营报表、通过接口给其它部门获取数据生成数据大盘、直接生成数据大盘给到用户查看。
整个数据仓库的分层架构,是把数据从分散到集中、从业务数据到决策数据的转变,更好的为企业经营决策做准备。
2.0阶段大数据平台
在这个阶段,数据的应用已经开始遍布各个场景了,比如app的智能推荐、网站的搜索引擎、用户画像等,企业已经开始使用数据进行精准营销与运营了。
最炙手可热的技术无疑是Hadoop分布式计算框架,只要使用相对廉价的PC服务器就可以搭建大数据集群。
当下最流行的一个词是数据湖,即接入业务系统的结构化、非结构化数据,再应用Hadoop生态强大计算引擎,将数据直接应用于服务,减少了传统数据仓库的建模过程。
当下最关键的一个词便是Hadoop,Hadoop的核心设计包括三大部分,即Mapreduce、Hbase、HDFS,通过MapReduce将计算任务进行拆解执行并最终汇总起来,通过Hbase列式内存数据库进行数据的存储,通过HDFS进行文件元数据管理、存储物理文件、获取各种文件API存储到数据节点中。
那么企业是如何搭建大数据平台的呢?
除了数据仓库的顶层数据应用、底层数据采集外,在数据存储与分析层拆分的更加细致,从下往上包含数据集成、文件存储、数据存储、编程模型、数据分析。
因为海量的设备和系统每天都在产生海量的数据,其中有标准化的数据,也有文件文本等,对于标准化的数据,数据采集系统直接使用异步传输、消息中间件传输等放入大数据库进行存储,对于文件数据,直接传到HDFS文件存储系统,数据全存储起来后可以根据数据的类型选择适合的数据模型来进行处理,最后结合业务需求进行数据的多维分析。
整个大数据平台结构的划分,是把数据拆分的更加细致管理,降低企业成本,运用在更多的场合。
3.0阶段数据中台
随着10多年的技术和经验积累,再结合人工智能、云计算的出现,大家对于数据有了更多更深的认识,因此产生了数据中台的概念。
数据中台的核心是资源共享与复用,通过数据流转环节统一化、处理工具组件化、应用调用服务化、组织管理清晰化来进行中台的建设。
那么企业是如何搭建数据中台的呢?
总的来说可以划分为五大模块,从下往上是即数据技术平台、数据管理平台、数据开发平台、公共数据区、应用服务层。
数据基础平台则包含数据采集、计算、存储,直接使用云厂商提供的云计算服务即可。
数据管理平台则包含元数据统一管理、数据质量管理、数据生命周期管理等,保障数据中台可以监控数据链路的数据流向、数据使用效果。
数据开发平台则是进行各个数据开发工具的开发管理,比如数据接入导出工具、模型设计工具、数据调用工具。
公共数据区则是负责公共数据模型开发,统一标签平台,把数据封装成可对外服务的数据;在应用服务层,可直接使用数据部门提供的数据进行业务的分析和市场营销,比如新注册一个用户,根据用户的年龄、性别、地域、注册时间、注册时长等标签即可判断该用户属于哪一类用户,从而进行精准的用户营销。
数据中台虽然在2015年就提出来,并且在阿里、京东这样的电商巨头也得到了较好的实践,但中台并不是适合任何一个企业,他们只是提供了参考答案,而非标准答案。
物联网时代的到来将会产生更多的数据,数据的采集、存储、生命周期管理、数据建模、数据分析、数据应用等将会产生更大的挑战,也会诞生更新的玩法,至于如何演进,我们就拭目以待吧~
喜欢我们的文章吗?还想了解互联网哪些技术,欢迎留言告诉我们
【AI课工场】互联网知识也能如此好玩~
更多热门互联网技术文章抢先知微信公众号【kgc-cn】
网友评论