现在所谓的大数据,AI,之类其实都不是什么新鲜事物,只不过现在的人太能喊口号。这些无非是操作大量数据,或者在大量数...[作者空间]
数据仓库上下游表间数据质量检查产生于下游表生成过程中,也是下游表本身的数据质量控制问题,上下游的关系并不仅限于数据...[作者空间]
主要的区别在于数据建模,体现在两点: 1. 信息对象 BW4HANA信息对象更少,但是更灵活。 传统的BW受限于硬...[作者空间]
通过阅读本文,可以让你快速了解数仓如何分层,合理,实用。笔者坚持原创,根据实践总结,希望对新手有所帮助。 分层案例...[作者空间]
背景 在使用kettle 的表输出组件的时候,因为服务器hive版本为0.13,不支持insert into va...[作者空间]
背景 最近需要将mysql的数据库的数据导入到hive里,期间遇到了很多坑,这次来总结一下。 步骤 1.启动hiv...[作者空间]
基本常识 数据仓库的源数据类型 数据仓库的多维数据模型 BI数据仓库数据分层 即席查询 算法架构 浅谈数据仓库的基...[作者空间]
背景 最近由Java工程师转岗为ETL数据工程师,虽然以前也有为数据集成的项目储备过kettle相关的知识,但是一...[作者空间]
http://blog.csdn.net/u011239443/article/details/52623602《...[作者空间]
为什么做增量数据量大,只需要增量最新被更改的数据。 如何做增量(1)insert into比如行为数据,发生一条记...[作者空间]
为什么分桶 (1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive在处理有些查询时能利用这个结构。具体而言...[作者空间]
为什么做分区 分区表将数据组织成分区,主要可以提高数据的查询速度。 如果把一年或者一个月的日志文件存放在一个表下,...[作者空间]
Table t has 2 columns:id INT;value CHAR(1);Column id star...[作者空间]
业务分析人员或者管理者,经常会要看某个特定时间点的数据,所以需要对某些表做快照。 快照主要分为周期快照事实表和累积...[作者空间]
1. 目的说明 本文档提供apache hadoop的基础安装手册,适用于快速入门练习使用;生产环境配置,在关键步...[作者空间]
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库本身...[作者空间]
1. 目的说明 本文提供Oracle GoldenGate在Oracle db到Oracle db的数据复制安装配...[作者空间]
1. 目的说明 本文档提供Oracle GoldenGate安装配置指导,适用于入门练习使用,生产环境配置,在关键...[作者空间]
在数据仓库领域有一个概念叫surrogate key,中文一般翻译为“代理关键字”。代理关键字一般是指维度表中使用...[作者空间]
dw 事务事实表 在数据仓库领域有一个概念叫transaction fact table,中文一般翻译为“事务事实...[作者空间]