问题和背景 Kafka的JMX监控中,RequestQueueTimeMs反映了Kafka请求的延迟情况。Kafk...[作者空间]
List集合 list是一个有序且可以重复的序列。 创建list集合 List(elem1, elem2...)这...[作者空间]
@erixhao技术极客TechBooster 今天我们来继续介绍Apache顶级项目大数据三巨头之一的HBase...[作者空间]
@erixhao技术极客TechBooster 火花四溢,热情洋溢。极客朋友么知道,我们翘首以盼的Spark来了。...[作者空间]
1 背景知识 1.1 解决问题 解决HDFS不支持单条记录的快速查找和更新的问题。 1.2 适用情况 存在亿万条记...[作者空间]
实验目的 理解Hive在Hadoop体系结构中的角色。 熟悉Hive的DDL命令与DML操作。 区分数据仓库和数据...[作者空间]
hadoop是处理大数据的得力帮手,它主要分为三种模式: 单机模式;伪分布式模式;完全分布式模式; 在这篇文章中,...[作者空间]
整个shuffle的流程图 Map Shuffle的作用以及相应的设置 partition过程:输入的
1.HBase是什么 1)HBase的产生背景? 随着数据规模越来越大,大量业务场景开始考虑数据存储的水平扩展,使...[作者空间]
认识HDFS HDFS的特点: 高容错性高吞吐量故障的检测和自动快速恢复流式的数据访问大数据集一次写入,多次读写 ...[作者空间]
Zookeeper字面上理解就是动物管理员,Hadoop生态圈中很多开源项目使用动物命名,那么需要一个管理员来管理...[作者空间]
2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大...[作者空间]
sqoop的功能架构 sqoop是能够在hdfs和关系型数据库之间进行数据量大的数据转换工具,底层运行的是mapr...[作者空间]
源自Google的MapReduce计算模型。MapReduce是一种集群数据并行计算的编程模型,它并不提供数据处...[作者空间]
源自Google的GFS(Google分布式文件系统)论文,分布式文件系统(HDFS)是GFS的克隆版。HDFS负...[作者空间]
说到大数据就不得不说一下主数据,曾经公司在无数个会议上被多次提到,一群参会的吃瓜群众根本不知所云。今天我们就来分享...[作者空间]
当步入了大数据殿堂,很多专业的词汇不得不仔细的品味,理解它将帮助在实践中明确方向。从我们呱呱落地开始认识这个世界的...[作者空间]
当前大数据正是最热门的话题,上到治国理政下到个人发展似乎越来越离不开它了。但是到底什么是大数据呢?大数据不仅仅是拥...[作者空间]
01 数据场 学过物理的小伙伴,都知道世界充满了电场和磁场。了解过佛学的人,都知道世界充满了念力场与信息场,通过信...[作者空间]
hdp2.4是hortworks最新推出的100%开源的hadoop发行版本,其中包含了最新的spark 1.6,...[作者空间]