Hadoop3.2 集群新版本的搭建详细讲解过程,从下面第一张官方的图来看,最新版是3.2,所以大猪将使用3.2的...[作者空间]
这篇已经是本系列文章的第五篇了,上一篇大猪已经介绍 PV/UV 的实现方式以及程序的计算逻辑,本篇大猪继续为小伙伴...[作者空间]
作为一个百亿级的流量实时分析统计系统怎么能没有PV/UV这两经典的超级玛丽亚指标呢,话说五百年前它俩可以鼻祖,咳咳...[作者空间]
在上一篇文章 大猪 已经介绍了日志存储设计方案 ,我们数据已经落地到数据中心上了,那接下来如何ETL呢?毕竟可是生...[作者空间]
大猪 见很多文章都写了Hbase如何设计rowkey避免热点问题,就连 大猪 的文章也写过这样的优化,但是只说到了...[作者空间]
背景 接着上篇文章 百亿级流量实时分析统计 - 数据结构设计 我们已经设计好了日志的结构,接下来我们就准备要开始撸...[作者空间]
背景 靠文章生存的大厂们简书/小红书/CSDN(PS:好吧你们仨记得给我广告费),对优秀的文章进行大数据分析的工作...[作者空间]
昨天有位大哥问小弟一个Spark问题,他们想在不停Spark程序的情况下动态更新UDF的逻辑,他一问我这个问题的时...[作者空间]
可以用两行代码搞定Hbase的预分区设计,我们在新建一张表的时候有没有发现,做预分区其实也是要计算的,如果没有写上...[作者空间]
Antlr4 是一个强大的解析器的生成器,可以用来读取、处理、执行或翻译结构化文本,ANTLR可以从语法上来生成一...[作者空间]
有时候我们想定义一个字符串的方法,然后通过scala的动态创建class,然后反射调用方法,在很多情景下是在学有用...[作者空间]
在spark的数据源中,只支持Append, Overwrite, ErrorIfExists, Ignore,这...[作者空间]
如果我们的Mysql服务器性能不咋滴,但是硬盘很够,如何才能做各种复杂的聚合操作?答案就是使用spark的计算能力...[作者空间]
有时候有没有这么一种情况,我拿到了一个sql,csv,parquet文件,一起来就想写sql,不想写那些乱七八糟的...[作者空间]
新鲜文章,昨天刚经过线上验证过的,使用它导出了3亿的用户数据出来,花了半个小时,性能还是稳稳的,好了不吹牛皮了,直...[作者空间]
通过spark-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,ya...[作者空间]
Spark 在三个弹性数据集,但是我们并不知道哪个性能比较好(有的文章的说Dataset
想不想把spark项目打包更快一点?如果把几百M的依赖包打成一个包是很花时间的,少则1分钟,多则几分钟,这些时间还...[作者空间]
HDFS_DELEGATION_TOKEN 这个BUG在很多文章中都出现着,讲了很多原理,但是只给出了官方引用地扯...[作者空间]
众所周知Hbase的BulkLoad是最快导入数据的方式,在导入历史数据的时候,我们一般会选择使用BulkLoad...[作者空间]