美文网首页
数据导入数仓的后期

数据导入数仓的后期

作者: 有点胖的瘦子 | 来源:发表于2023-08-03 06:47 被阅读0次

经过一段时间的学习,现在对于历史业务库终于有了更多的了解了,无论是业务下查询还是表结构还是字段内容构成,以及表之间的关系,都做了不少记录,下一步计划开始准备数据仓库的在更大的环境下进行查询与分析。

首先是从业务库中导出数据,最好是平时增量,就是每天运行,只导出昨天的数据(创建与变更),但是这里有个要求,就是被导出的表的创建与变更时,都有时间记录,否则就会遗漏,当然这里也有一个补充方案,就是每个周末导出一份全量数据,作用补充。

下一步是指定哪些表需要导出,由于对于业务流转已经有了认知,主要的表已经清楚了,可以指定出来。

下一步就是围绕指定的表进行导出开发。

这里要注意,由于存在多个历史业务库,所以不同客户的业务是单独导入到不同数据库中的,只为他们具有相似的表结构,但是又不完全相同。导出到单库以后,可以对单用户进行多维度分析,如果相对多客户的数据进行全局分析,就需要再将不同客户的数据再导入到一个新库中,成为全局的分析数据表,当然,这里边可能要进一步整合两个不完全相同的表结构和数据。

先分析一下单客户的数据,这里对数据的查询与分析的逻辑,是完全依赖对历史业务数据代码的分析而开展的,其中除了正常的多表关联查询外,还有一个重要的改变,就是将原来存储在字段内容中的标志位单独提炼出来,形成数据库独立字段,这样才能更好的支持SQL查询。

最后是满足一些单客户的主要业务场景的分析,最后能够定期导出业务用的报表,显示本次数据仓库构建的价值的冰山一角。

相关文章

  • sqlserver还原bak文件

    因最近公司需要将离线数据导入数仓,要熟悉离线数据。发现离线数据是bak格式备份文件,需要导入sqlserver还原...

  • 如何在 Java 中执行 Hive 命令或 HiveQL

    背景 对导入数仓的数据和导入前的文件数据进行验证,尝试采用如下方式。 说明 这里所说的在 Java 中执行 Hiv...

  • Nebula Exchange 工具 Hive 数据导入的踩坑之

    摘要:本文由社区用户 xrfinbj 贡献,主要介绍 Exchange 工具从 Hive 数仓导入数据到 Nebu...

  • 企业何时进行数据治理才是最佳时机

    找准数据治理的切入点,是关乎数据治理成败的关键。如果将数仓建设分为数仓雏形阶段、数仓迭代阶段和能力沉淀阶段,数据治...

  • 用户行为数仓搭建

    # 数仓分层概念 1.数仓分层 ods 存放原始数据 dwd 数据清洗 dws 数据汇总 ads 为统计报表提供数...

  • 数仓的发展与特性

    一.何为数仓? 也就是集成化数据环境,控制数据的流入与流出,本身并不产生和消费数据。 二.数仓的作用? 1、管理数...

  • 实时数仓有必要吗?

    传统的数据仓库或者数据集市并没有包括当前最新的数据,其数据是按周甚至按天导入到数仓里面的。然而,有一些公司已经开始...

  • 数据中台和数仓的关系

    传统数仓 传统数仓有几个特点: 数据具有历史性 基于文件存储 以表为形态,自带元数据存储(比如Hive) 在数仓的...

  • 数据仓库(02)数仓、大数据与传统数据库的区别

      数据仓库(数仓)与大数据区别,数据仓库(数仓)与数据库的区别,大数据与传统数据库的区别等等,这篇文章带你了解。...

  • 数仓建设规范

    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段...

网友评论

      本文标题:数据导入数仓的后期

      本文链接:https://www.haomeiwen.com/subject/ihqmpdtx.html