03年,作者大二买了第一台计算机。记得那时候2种主题的书特别多,注册表和Bios。现在想想《教你21天玩转Bios...[作者空间]
总结 前提:每一个job提交后都会生成一个ResultStage和若干个ShuffleMapStage其中Resu...[作者空间]
随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台: Apache Flume F...[作者空间]
这里的SparkSQL是指整合了Hive的spark-sql cli(关于SparkSQL和Hive的整合,见文章...[作者空间]
摘要: 当MySQL单表记录数过大时,数据库的CRUD性能会明显下降,一些常见的优化措施如下: 1.限定数据的范围...[作者空间]
Nginx Nginx是一款由C语言编写的高性能、轻量级的HTTP和反向代理服务器,同时也是一款IMAP/POP3...[作者空间]
随着社会的进步,大数据的高需求,高薪资,高待遇,促使很多人都来学习和转行到大数据这个行业。学习大数据是为了什么?成...[作者空间]
摘要:HBase和Phoenix的优势大家众所周知,想要落地实践却问题一堆?replication的随机发送、Co...[作者空间]
1、常见海量数据处理方法 hash、bit-map(位图法)、bllomfilter、数据库优化、倒排索引、外排序...[作者空间]
spark和kafka整合有2种方式 1、receiver 顾名思义:就是有一个线程负责获取数据,这个线程叫rec...[作者空间]
概念介绍 分块 在HDFS系统中,为了便于文件的管理和备份,引入分块概念(block)。这里的块是HDFS存储系统...[作者空间]
一 数据仓库 1什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,...[作者空间]
概述 HBase是一个构建在HDFS上的分布式列存储系统; HBase是基于Google BigTable模型开发...[作者空间]
一、HBase与Hadoop之间的关系 Hadoop框架中的HDFS分布式文件系统为HBase提供了可靠的底层存储...[作者空间]
在讨论JVM内存区域分析之前,先来看一下Java程序具体执行的过程: Java 程序的执行过程:Java 源代码文...[作者空间]
每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获...[作者空间]
在数据仓库构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了从数据清洗,整合,到转换,加载等的各个过程...[作者空间]
简介: ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,...[作者空间]
前言 继Spark性能优化篇二: 开发调优和Spark性能优化篇一:资源调优讲解了每个Spark开发人员都必须熟...[作者空间]
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了...[作者空间]