spark经典案例之统计每天新增用户数

作者: 张明洋_4b13 | 来源:发表于2019-03-09 15:41 被阅读0次

spark经典案例之统计每天新增用户数
spark经典案例之统计每天新增用户数
spark经典案例之统计每天新增用户数
spark经典案例之统计每天新增用户数
spark经典案例之统计每天新增用户数
spark经典案例之统计每天新增用户数
spark 统计每天新增用户数
使用Java中的Stream流的方式实现单词的频次统计
日新增用户数
日新增用户数

前言

本文源自一位群友的一道美团面试题，解题思路（基于倒排索引）。

1、原始数据

2017-01-01  a
2017-01-01  b
2017-01-01  c
2017-01-02  a
2017-01-02  b
2017-01-02  d
2017-01-03  b
2017-01-03  e
2017-01-03  f

根据数据可以看出我们要求的结果为：
2017-01-01 新增三个用户（a,b,c）
2017-01-02 新增一个用户（d）
2017-01-03 新增两个用户（e，f）

2、解题思路

2.1 对原始数据进行倒排索引

结果如下：

用户名	列一	列二	列三
a	2017-01-01	2017-01-02
b	2017-01-01	2017-01-02	2017-01-03
c	2017-01-01
d	2017-01-02
e	2017-01-03
f	2017-01-03

2.2 统计列一中每个日期出现的次数

这样我们只看列一，统计每个日期在列一出现的次数，即为对应日期新增用户数。

3、代码

package com.dkl.leanring.spark.test

import org.apache.spark.sql.SparkSession

object NewUVDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("NewUVDemo").master("local").getOrCreate()
    val rdd1 = spark.sparkContext.parallelize(
      Array(
        ("2017-01-01", "a"), ("2017-01-01", "b"), ("2017-01-01", "c"),
        ("2017-01-02", "a"), ("2017-01-02", "b"), ("2017-01-02", "d"),
        ("2017-01-03", "b"), ("2017-01-03", "e"), ("2017-01-03", "f")))
    //倒排
    val rdd2 = rdd1.map(kv => (kv._2, kv._1))
    //倒排后的key分组
    val rdd3 = rdd2.groupByKey()
    //取最小时间
    val rdd4 = rdd3.map(kv => (kv._2.min, 1))
    rdd4.countByKey().foreach(println)
  }
}

结果：

(2017-01-03,2)
(2017-01-02,1)
(2017-01-01,3)

附图：

image

网友评论

本文标题：spark经典案例之统计每天新增用户数

本文链接：https://www.haomeiwen.com/subject/qlospqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

spark经典案例之统计每天新增用户数

前言

1、原始数据

2、解题思路

2.1 对原始数据进行倒排索引

2.2 统计列一中每个日期出现的次数

3、代码

相关文章

spark经典案例之统计每天新增用户数

spark经典案例之统计每天新增用户数

spark经典案例之统计每天新增用户数

spark经典案例之统计每天新增用户数

spark经典案例之统计每天新增用户数

spark经典案例之统计每天新增用户数

spark 统计每天新增用户数

使用Java中的Stream流的方式实现单词的频次统计

日新增用户数

日新增用户数

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读