“数据可视化” 是一种使用技术手段表达数据结果的一种方式,但是大部分数据可视化=各种图表,这是十分外行的想法。 数...[作者空间]
前言 有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 Spar...[作者空间]
SpringBatch简介 SpringBatch是一个轻量级的综合性批处理框架,可用于开发企业信息系统中那些至关...[作者空间]
之前楼主在一家大型P2P公司,这是我们的数据仓库建设,分享给大家! 1.为什么要数据仓库 2.数据仓库的好处 3....[作者空间]
权限的管控,历来是大数据平台中最让人头疼的问题之一。管得严了,业务不流畅,用户不开心,放得宽了,安全没有底,你能放...[作者空间]
Hive优化 今天的主要内容——Hive优化 Fetch抓取Hive 中对某些情况的查询可以不必使用 MapRed...[作者空间]
本文通过展示hive.mapjoin.smalltable.filesize 这个参数的设置,来比较是否使用map...[作者空间]
hive.optimize.cp=true:列裁剪 hive.optimize.prunner:分区裁剪 hive...[作者空间]
Hive SQL的编译过程 木叶丸 ·2014-02-12 17:30 转载https://tech.meitua...[作者空间]
hive中join原理与机制 笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成jo...[作者空间]
hive中表分区 Hive中的表分区比较简单,就是将同一组数据放到同一个HDFS目录下,当查询中过滤条件指定了某一...[作者空间]
UDTF 上一篇介绍了基础的UDF——UDF和GenericUDF的实现,这一篇将介绍更复杂的用户自定义表生成函数...[作者空间]
hive udf简介 在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,而这类函数叫做UDF(用户...[作者空间]
Hive数据倾斜总结 倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Has...[作者空间]
0x00 前言 本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。...[作者空间]