全流程:数据采集->数据存储->数据分析->数据呈现

数据采集
首先我们从数据采集来说,数据采集的数据主要来自于日志功能模块、业务系统、合法合规的爬虫、第三方数据采集系统、智能硬件,这里日志功能模块我们以Nginx服务日志为例;业务系统主要包括商品管理系统、用户管理系统、仓储系统、物流系统;爬虫主要是爬取竞品的商品信息,用于观察竞品动向和商品比价;第三方数据采集系统我们以神策为例;智能硬件主要是用于仓储和车辆的温度湿度监控、预警。
数据存储(数据库、数据仓库、数据集市)
数据库
然后是对采集过来的数据进行清洗、转换、加载,也就是我们所说的ETL过程。经过清洗之后的数据我们会把他放在数据库里面,最后会得到一个一个类似于下图的表结构,其中黑色的是维度表,红色的是事实表。最后这些数据数据会存放在数据库和数据仓库里面,比如业务系统和智能硬件产生的数据会被存放在事务数据库上,Nginx的数据会被存放在行为数据库上,而第三方采集系统的数据会被直接存在数据仓库中被用来分析数据。

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、可修复的数据集合。与其他数据库应用不同的是,数据仓库更像是一个过程。把数据库里面的数据进行抽取、转化、装载最终以结构化数据格式、半结构化数据格式、非结构化数据格式存放在数据仓库上。

1.用户构成进行多维建模(星型模型)。数据仓库建模主要分为星型模型和雪花型模型。
可以从时间、地域、性别、年龄、职业、等级、渠道、学历等维度来分析用户是通过什么渠道,在什么时间节点访问了哪个平台进行的注册操作,还可以分析我们的产品最受哪个年龄段的用户喜欢,他们一般是什么学历,什么职业,来自哪里,对产品的忠诚度怎么样。

2.订单构成进行多维建模(雪花模型)。
可以从用户、地域、时间、商品、发票、优惠券等几个维度对订单进行分析,观察那个地方的然对哪些商品感兴趣,什么时间节点下单比较多,我们的用户对发票的需求大不大,哪些商品最受用户欢迎,交易维度可以分析出什么样的支付方式最受欢迎。

3.渠道质量分析(星型模型)
可以从设备、用户、订单、商品等维度进行分析,这个渠道有多少设备、有多少注册用户,有多少订单,订单的转化率怎么样,带来了多少GMV, 这个渠道的用户喜欢什么商品。

建模之后数据需要通过ETL,即数据的提取、转化与装载,生成新的事实表,并存储在企业数据仓库或ODS上,方便分析师进行分析。
数据集市
人们在早起开发企业级数据仓库的时候,一般是先建立一个全局的数据仓库,然后在此基础上建立各种应用,即“自顶向下”的方法。但在开发的过程中会出现以下问题:
1.如果按“自顶向下”的方法建立企业级数据仓库,建设规模往往较大,建设周期长,投资大。
2.在数据仓库建好后,随着使用数据仓库的部门争夺,对数据仓库资源的竞争将成为企业面临的一个难题。
3.各部门希望能定制数据仓库中的数据,但数据仓库是面向企业的。
由于以上问题,便出现了数据集市,数据集市又会分为独立数据集市和从属数据集市,我理解的是独立数据集市是面向公司的每个大部门,比如技术部,而从属数据集市是面向大部门里面的小部门,比如技术部里面的前端组。

比如企业里面有市场部、运营部、产品部、技术部,每个部门想要了解的数据,关心的指标都不一样,这样我们就需要有四个数据集市来为这些部门服务。比如市场部主要关心渠道质量、渠道的GMV贡献等。
数据分析可以用AARRR、AHP、RFM等模型对数据仓库和数据集市中冗余的数据进行分析提取出对业务有帮助的关键指标,供数据需求方决策使用。
数据呈现:最终以报表的形式呈现给数据需求方,比如市场部
1.各渠道数据概览(过去7日)

2.各渠道着陆页的访问用户和跳出率(过去7日)

3.各渠道GMV的贡献情况

4.各渠道购买转化分析

网友评论