需求:从性别、年龄、 职业、城市、居住年限,婚姻状况等维度找到高质量用户,并查看高质量用户人群的占比,为其提供高价...[作者空间]
一、安装hive前提条件 hive运行在hadoop集群上,所以先要确保你的hadoop集群已经安装完毕并且可正常...[作者空间]
Hive的数学函数包含两种,一种是内嵌函数,一种是由java定义的自定义函数。对于不懂Java的数据分析师,掌握H...[作者空间]
小编前几天去面试了一个大数据分析的岗位,学习了几个月信心满满的小编被无情的面试教育了,被教育的不是一些高深的算法理...[作者空间]
小编在学习了几个月的大数据之后,终于接到了老板派来的活啦!有核心技术在手,感觉走路都轻快了许多呢。这个需求呢实际上...[作者空间]
产生此问题的原因:编码问题解决方式一:改变数据的编码 结局方式二:若还不能以方式一解决,则重新创建的数据库meta...[作者空间]
1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问...[作者空间]
在使用Hive搭建数据仓库,处理数据时,同传统数仓的结构化数据不同,我们经常会遇到一些非结构化的数据,json格式...[作者空间]
前言: 本文是对adventure work案例的一个整体小结,描述在做的过程中收获到的东西。BI链接 目录如下:...[作者空间]
前言: 以sql为基础,利用题目进行hive的语句练习,逐步体会sql与hive的不同之处。本次题目用到row_n...[作者空间]
前言: 以sql为基础,利用题目进行hive的语句练习,逐步体会sql与hive的不同之处。 题目用到hive的集...[作者空间]
前言: 以sql为基础,利用题目进行hive的语句练习,逐步体会sql与hive的不同之处。本次练习题来源:htt...[作者空间]
前言: 针对有sql基础,刚熟悉linux界面,在此进行hive的入门学习分享,文章结合网络资料并加以细化步骤。本...[作者空间]
分桶字段选择 进行分桶之前需要对表的数据分布情况进行大致的分析,一般遵循的原则为,选择离散度高的字段进行分桶。可以...[作者空间]
本文种记录的大多是开源版本hive调优方式 我也会补充TDH集群Inceptor的优化方式 面试必备技能-Hive...[作者空间]
日常检查ETLjob时发现一段sql采用hive on mr执行比hive on spark要快70%,与正常的认...[作者空间]
使用场景 需要查找最近修改时间在指定范围内的hive表或者hive表的相关分区,代码如下:[作者空间]
数据仓库(Data Warehouse ) 1.1 基本概念 数据仓库的目的是构建面向分析的集成化的数据环境, 为...[作者空间]
一、Hive的服务端组件 Driver组件:该组件里包含Compiler、Optimizer、Executor,负...[作者空间]
一、什么是HBase?特性 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,基于Hadoop,建...[作者空间]