Hadoop生态技术体系下,负责大数据存储管理的组件,涉及到HDFS、Hive、Hbase等。Hive作为数据仓库...[作者空间]
目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用。为了统一大家的认知,更加清晰的认识数据...[作者空间]
JOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分...[作者空间]
Spark SQL读取MySQL的方式 Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。...[作者空间]
Spark订单量的实时统计项目 需求: 1.各省份营业额的实时统计2.各省份订单量的实时统计 数据: 第一步:编写...[作者空间]
实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实...[作者空间]
转自千峰王溯老师 1、用户画像项目简介 1.1 什么是用户画像 所谓的用户画像就是给用户贴一些标签,通过标签说明用...[作者空间]
借助于spark的分布式特性,机器学习与spark的结合可以解决数据规模大、复杂运算时间久的问题。spark提供M...[作者空间]
调优的思路依赖平时工作中不断总结所形成的丰富经验。而这些是很难直接从知识文档中获取的,应当具体问题具体分析,本文对...[作者空间]
我们在使用 Apache Kafka 生产和消费消息的时候,肯定是希望能够将数据均匀地分配到所有服务器上。比如很多...[作者空间]
一、hadoop和mysql的配合使用 几种hadoop组件的用法: hadoop的hdfs:分布式存储;hive...[作者空间]
前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取...[作者空间]