1 需求分析 WebServer/ApplicationServer分散在各个机器上,然而我们依旧想在Hadoop...[作者空间]
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(...[作者空间]
1. 简介 Kafka 是由 LinkedIn 开发的一个基于发布/订阅的消息系统,具有高性能、持久化、多副本备份...[作者空间]
hive架构组件:meta storecli clientjdbc clientdriversql parser解...[作者空间]
【说明】看到这样一篇文章https://towardsdatascience.com/sql-cheat-shee...[作者空间]
淘宝大数据平台 淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的Hadoop大数据平台,比...[作者空间]
1 回顾 透露一下,本人是双非二本,自从高考失利以后还以为自己要一直这么平凡下去,没想到过了三年终于又给我一个机会...[作者空间]
基础性的东西,不过在回答的时候要能回答出彩来 什么是Hive Hive是由Facebook开源用于解决海量结构化日...[作者空间]
以Hive2.3.4为例进行学习 元数据表总览 一共有57张表,大致分类下:image.png 版本表VERSIO...[作者空间]
DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/...[作者空间]
本文系学姐原创,转载请联系学姐,未经允许不得转载,学姐会定期搜索全网文章。感谢你的阅读,希望能给你带有一些小小的益...[作者空间]
1、请说明什么是Apache Kafka? 2、说说Kafka的使用场景? 3、使用Kafka有什么优点和缺点? ...[作者空间]
本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、...[作者空间]
一、数据结构与算法 1.二叉树前序、中序、后续遍历方式(递归以及非递归) 2.二叉树的深度以及广度遍历方式 3.二...[作者空间]
你准备好面试了吗?需要 Hadoop 的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。 Q1....[作者空间]
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce采用”分而治之”的思...[作者空间]
1.1. 调优手段 (1)利用列裁剪 当待查询的表字段较多时,选取需要使用的字段进行查询,避免直接select *...[作者空间]
Zookeeper是什么 Zookeeper是一个分布式的,开源的分布式应用程序协调服务,是Google的Chub...[作者空间]
阿里蚂蚁金服专场面试系列题 01 技术一面 线程池有哪些参数?分别有什么用?如果任务数超过的核心线程数,会发生什么...[作者空间]
一、什么是 Apache Hive? Apache Hive 是一个基于 Hadoop Haused 构建的开源数...[作者空间]