《Spark 实战》专题

专题列表页

演示在spark下很多实战的应用例子。

Hadoop3.2 集群搭建
61
2019-04-02

Hadoop3.2 集群新版本的搭建详细讲解过程，从下面第一张官方的图来看，最新版是3.2，所以大猪将使用3.2的...[作者空间]

Spark+Hbase 亿级流量分析实战（留存计算）
115
2019-03-28

这篇已经是本系列文章的第五篇了，上一篇大猪已经介绍 PV/UV 的实现方式以及程序的计算逻辑，本篇大猪继续为小伙伴...[作者空间]

Spark + Hbase 百亿级流量实时分析统计之经典指标
0
2019-03-28

作为一个百亿级的流量实时分析统计系统怎么能没有PV/UV这两经典的超级玛丽亚指标呢，话说五百年前它俩可以鼻祖，咳咳...[作者空间]

Spark + Hbase 百亿级流量实时分析统计之小巧高性
11
2019-03-25

在上一篇文章大猪已经介绍了日志存储设计方案，我们数据已经落地到数据中心上了，那接下来如何ETL呢？毕竟可是生...[作者空间]

Spark + Hbase 自定义读取分片数据、深挖内部原理
9
2019-03-24

大猪见很多文章都写了Hbase如何设计rowkey避免热点问题，就连大猪的文章也写过这样的优化，但是只说到了...[作者空间]

Spark + Hbase 百亿级流量实时分析统计之日志存储
3
2019-03-23

背景接着上篇文章百亿级流量实时分析统计 - 数据结构设计我们已经设计好了日志的结构，接下来我们就准备要开始撸...[作者空间]

Spark + Hbase 百亿级流量实时分析统计之数据结构
4
2019-03-23

背景靠文章生存的大厂们简书/小红书/CSDN(PS:好吧你们仨记得给我广告费)，对优秀的文章进行大数据分析的工作...[作者空间]

Spark 高级篇 - 程序不重启还能支持动态注册UDF
31
2019-03-15

昨天有位大哥问小弟一个Spark问题，他们想在不停Spark程序的情况下动态更新UDF的逻辑，他一问我这个问题的时...[作者空间]

Hbase 做预分区的技巧
0
2019-03-06

可以用两行代码搞定Hbase的预分区设计，我们在新建一张表的时候有没有发现，做预分区其实也是要计算的，如果没有写上...[作者空间]

Antlr4 自定义实现SparkSQL的解析
51
2019-03-03

Antlr4 是一个强大的解析器的生成器，可以用来读取、处理、执行或翻译结构化文本，ANTLR可以从语法上来生成一...[作者空间]

Scala 反射动态创建方法的骚操作
21
2019-02-27

有时候我们想定义一个字符串的方法，然后通过scala的动态创建class，然后反射调用方法，在很多情景下是在学有用...[作者空间]

Spark 数据源jdbc2新增upsert功能
28
2019-02-20

在spark的数据源中，只支持Append, Overwrite, ErrorIfExists, Ignore,这...[作者空间]

Spark 直接操作数据源 MySQL
5
2019-02-19

如果我们的Mysql服务器性能不咋滴，但是硬盘很够，如何才能做各种复杂的聚合操作？答案就是使用spark的计算能力...[作者空间]

Spark 在文件上直接使用SQL查询
7
2019-02-18

有时候有没有这么一种情况，我拿到了一个sql,csv,parquet文件，一起来就想写sql，不想写那些乱七八糟的...[作者空间]

来、这里有Hbase导出CSV格式数据的文章
7
2019-02-15

新鲜文章，昨天刚经过线上验证过的，使用它导出了3亿的用户数据出来，花了半个小时，性能还是稳稳的，好了不吹牛皮了，直...[作者空间]

Spark 资源动态释放
1
2019-01-04

通过spark-submit会固定占用一占的资源，有什么办法，在任务不运作的时候将资源释放，让其它任务使用呢，ya...[作者空间]

Spark RDD/Dataframe/Dataset 无聊的性
2
2019-01-01

Spark 在三个弹性数据集，但是我们并不知道哪个性能比较好(有的文章的说Dataset[作者空间]

Spark Gradle jar 包分离方法
4
2018-12-30

想不想把spark项目打包更快一点？如果把几百M的依赖包打成一个包是很花时间的，少则1分钟，多则几分钟，这些时间还...[作者空间]

HDFS_DELEGATION_TOKEN 还原及解决方案
5
2018-12-29

HDFS_DELEGATION_TOKEN 这个BUG在很多文章中都出现着，讲了很多原理，但是只给出了官方引用地扯...[作者空间]

Hbase BulkLoad方式导入百亿级数据
20
2018-12-27

众所周知Hbase的BulkLoad是最快导入数据的方式，在导入历史数据的时候，我们一般会选择使用BulkLoad...[作者空间]

栏目导航

延伸阅读

栏目导航

爱情美文推荐

热点爱情美文

最新爱情美文