《大数据》专题

专题列表页

大数据平台

Hadoop生态技术体系下，负责大数据存储管理的组件，涉及到HDFS、Hive、Hbase等。Hive作为数据仓库...[作者空间]

目前，外界与业内很多人对于数据中台的理解存在误区，一直只是在强调技术的作用。为了统一大家的认知，更加清晰的认识数据...[作者空间]

JOIN操作是非常常见的数据处理操作，Spark作为一个统一的大数据处理引擎，提供了非常丰富的JOIN场景。本文分...[作者空间]

Spark SQL读取MySQL的方式 Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。...[作者空间]

Spark订单量的实时统计项目需求: 1.各省份营业额的实时统计2.各省份订单量的实时统计数据: 第一步：编写...[作者空间]

实时数仓主要是为了解决传统数仓数据时效性低的问题，实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实...[作者空间]

转自千峰王溯老师 1、用户画像项目简介 1.1 什么是用户画像所谓的用户画像就是给用户贴一些标签，通过标签说明用...[作者空间]

借助于spark的分布式特性，机器学习与spark的结合可以解决数据规模大、复杂运算时间久的问题。spark提供M...[作者空间]

调优的思路依赖平时工作中不断总结所形成的丰富经验。而这些是很难直接从知识文档中获取的，应当具体问题具体分析，本文对...[作者空间]

我们在使用 Apache Kafka 生产和消费消息的时候，肯定是希望能够将数据均匀地分配到所有服务器上。比如很多...[作者空间]

一、hadoop和mysql的配合使用几种hadoop组件的用法： hadoop的hdfs：分布式存储；hive...[作者空间]

前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取...[作者空间]