【本文大纲】 1、字段血缘分析的意义 2、实现方案选择 3、实现过程 4、总结 字段血缘分析的意义 数仓经常会碰...[作者空间]
生活中的数据 搜索引擎是对数据的检索,所以我们先从生活中的数据说起。我们生活中的数据总体分为两种: 结构化数据 非...[作者空间]
美团 数据收集特性: 对于数据收集平台,日志数据是多接口的,可以打到文件里观察文件,也可以更新数据库表。关系型数据...[作者空间]
文章作者:姚凯飞 Club Factory 推荐算法负责人 内容来源:作者授权发布 出品社区:DataFun 导读...[作者空间]
什么是数据模型 数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中...[作者空间]
需要进行对比学习,弄清楚是hive元数据还是数仓元数据,两者有很大的区别,存储位置也是不一样的 Hive元数据 元...[作者空间]
我是一颗橙子: 很多朋友平时处理数据可能更熟悉Excel,提到SQL就想逃避,殊不知SQL在处理大量数据时有Exc...[作者空间]
随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询...[作者空间]
整体结构 在具体分析数据仓库之前先看下一下数据中心的整体架构以及数据流向 DB 是现有的数据来源,可以为mysql...[作者空间]
KafkaSource 配置topic:topic1KafkaSink 配置topic:topic2从topic1...[作者空间]
在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境、营销策略和服务模式...[作者空间]
启动SparkOnYARN 确认HADOOP_CONF_DIR或者YARN_CONF_DIR指向的目录包含Hado...[作者空间]
文章内容来源于官网文档:http://kudu.apache.org/docs/index.html 一、kudu...[作者空间]
Kudu's storage format enables single row updates, whereas...[作者空间]
最近在做HBase跨机房的数据迁移,正好用到HDFS的异构存储,我们使用的场景是将WAL日志保存到SSD中,其他的...[作者空间]
声明:本文转自我的个人博客,有兴趣的可以查看原文。转发请注明来源。 最近工作需要,使用airflow搭建了公司的E...[作者空间]
问题 Spark on Yarn是将yarn作为ClusterManager的运行模式,Spark会将资源(con...[作者空间]
最近在学习Hbase二级索引的构建,虽然网上方案挺多,代码也并不复杂,但还是花了不少时间,主要是集群环境的调试踩了...[作者空间]
对于可视化分析方面,因为自己tableau已经用的很熟了,想增加对superset的认识和熟练程度,想搭建一个su...[作者空间]
TensorFlow做为深度学习领域最火的框架之一,一直被广大深度学习和机器学习应用者及爱好者推崇。但是做为不断快...[作者空间]