数据仓库搭建

数据仓库搭建

作者: 产品狗小白 | 来源:发表于2019-12-23 16:36 被阅读0次

21.1Hive复习
数据仓库搭建
HiveSQL解析过程详解
Hive SQL解析过程详解
Hive SQL的编译过程（转）
技术分享丨数据仓库的建模与ETL实践技巧
电商数据仓库项目简介
大数据用户画像系统架构设计
解读《Hadoop 构建数据仓库实践》
数据建模方法论

全流程:数据采集->数据存储->数据分析->数据呈现

数据采集

首先我们从数据采集来说，数据采集的数据主要来自于日志功能模块、业务系统、合法合规的爬虫、第三方数据采集系统、智能硬件，这里日志功能模块我们以Nginx服务日志为例；业务系统主要包括商品管理系统、用户管理系统、仓储系统、物流系统；爬虫主要是爬取竞品的商品信息，用于观察竞品动向和商品比价；第三方数据采集系统我们以神策为例；智能硬件主要是用于仓储和车辆的温度湿度监控、预警。

数据存储（数据库、数据仓库、数据集市）

数据库

然后是对采集过来的数据进行清洗、转换、加载，也就是我们所说的ETL过程。经过清洗之后的数据我们会把他放在数据库里面，最后会得到一个一个类似于下图的表结构，其中黑色的是维度表，红色的是事实表。最后这些数据数据会存放在数据库和数据仓库里面，比如业务系统和智能硬件产生的数据会被存放在事务数据库上，Nginx的数据会被存放在行为数据库上，而第三方采集系统的数据会被直接存在数据仓库中被用来分析数据。

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、可修复的数据集合。与其他数据库应用不同的是，数据仓库更像是一个过程。把数据库里面的数据进行抽取、转化、装载最终以结构化数据格式、半结构化数据格式、非结构化数据格式存放在数据仓库上。

1.用户构成进行多维建模（星型模型）。数据仓库建模主要分为星型模型和雪花型模型。

可以从时间、地域、性别、年龄、职业、等级、渠道、学历等维度来分析用户是通过什么渠道，在什么时间节点访问了哪个平台进行的注册操作，还可以分析我们的产品最受哪个年龄段的用户喜欢，他们一般是什么学历，什么职业，来自哪里，对产品的忠诚度怎么样。

2.订单构成进行多维建模（雪花模型）。

可以从用户、地域、时间、商品、发票、优惠券等几个维度对订单进行分析，观察那个地方的然对哪些商品感兴趣，什么时间节点下单比较多，我们的用户对发票的需求大不大，哪些商品最受用户欢迎，交易维度可以分析出什么样的支付方式最受欢迎。

3.渠道质量分析（星型模型）

可以从设备、用户、订单、商品等维度进行分析，这个渠道有多少设备、有多少注册用户，有多少订单，订单的转化率怎么样，带来了多少GMV，这个渠道的用户喜欢什么商品。

建模之后数据需要通过ETL，即数据的提取、转化与装载，生成新的事实表，并存储在企业数据仓库或ODS上，方便分析师进行分析。

数据集市

人们在早起开发企业级数据仓库的时候，一般是先建立一个全局的数据仓库，然后在此基础上建立各种应用，即“自顶向下”的方法。但在开发的过程中会出现以下问题：

1.如果按“自顶向下”的方法建立企业级数据仓库，建设规模往往较大，建设周期长，投资大。

2.在数据仓库建好后，随着使用数据仓库的部门争夺，对数据仓库资源的竞争将成为企业面临的一个难题。

3.各部门希望能定制数据仓库中的数据，但数据仓库是面向企业的。

由于以上问题，便出现了数据集市，数据集市又会分为独立数据集市和从属数据集市，我理解的是独立数据集市是面向公司的每个大部门，比如技术部，而从属数据集市是面向大部门里面的小部门，比如技术部里面的前端组。

比如企业里面有市场部、运营部、产品部、技术部，每个部门想要了解的数据，关心的指标都不一样，这样我们就需要有四个数据集市来为这些部门服务。比如市场部主要关心渠道质量、渠道的GMV贡献等。

数据分析可以用AARRR、AHP、RFM等模型对数据仓库和数据集市中冗余的数据进行分析提取出对业务有帮助的关键指标，供数据需求方决策使用。

数据呈现：最终以报表的形式呈现给数据需求方，比如市场部

1.各渠道数据概览（过去7日）

2.各渠道着陆页的访问用户和跳出率（过去7日）

3.各渠道GMV的贡献情况

4.各渠道购买转化分析

相关文章

21.1Hive复习
Hive hive是数据仓库，用途：分析，决策类影响hive搭建注意，搭建是按照元数据的存储和管理进行搭建的搭...
数据仓库搭建
全流程:数据采集->数据存储->数据分析->数据呈现数据采集首先我们从数据采集来说，数据采集的数据主要来自于日...
HiveSQL解析过程详解
Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行...
Hive SQL解析过程详解
Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行...
Hive SQL的编译过程（转）
Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行...
技术分享丨数据仓库的建模与ETL实践技巧
摘要：如何搭建数据仓库，在这个过程中都应该遵循哪些方法和原则，项目实践中有哪些技巧。数据仓库的"心脏" 首先来谈谈...
电商数据仓库项目简介
项目简介基于hadoop生态搭建的电商数据仓库，整体功能架构包含数据采集、数仓搭建、数据导出、数据可视化等。 g...
大数据用户画像系统架构设计
文章目录一、用户画像数据仓库搭建、数据抽取部分[https://editor.csdn.net/md/?arti...
解读《Hadoop 构建数据仓库实践》
书中构建一个数据仓库示例模型的讲解，实实在在的从 0 到 1 讲述了一个基于big data 的数据仓库原型的搭建...
数据建模方法论
传统的数据仓库一般是搭建在关系型数据库上，数据建模大多基于ER模型；现代互联网公司一般是搭建在大数据环境(cdh、...

网友评论

本文标题：数据仓库搭建

本文链接：https://www.haomeiwen.com/subject/bzzznctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|数据仓库搭建|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！