美文网首页
2022-02-17

2022-02-17

作者: 眼君 | 来源:发表于2022-02-17 17:35 被阅读0次

环境搭建

spark

  1. 下载安装spark3.0.2到本地并解压,安装包下载地址:
    https://archive.apache.org/dist/spark/spark-3.0.2/spark-3.0.2-bin-hadoop2.7-hive1.2.tgz
  2. 配置环境变量SPARK_HOME = <spark安装包解压的绝对路径>

python

python版本为python3.X
本项目需要安装的第三方包有:

jupyter==1.0.0
notebook==6.4.0
pandas==1.3.5
numpy==1.21.5
pyspark==3.0.2
findspark==1.4.2
pyecharts==1.7.0

代码运行

jupyter

请打开命令行,切换到项目目录下,运行以下命令即可:

jupyter notebook

浏览器打开jupyter notebook交互界面后,点击main.ipynb文件打开执行即可。

pycharm

pycharm载入项目目录打开后,点击main.py文件执行即可。

项目文件说明

data

存放数据集的目录,载入数据集文件UserBehavior.csv存放在在该目录下,代码载入文件路径已写死,请勿更改文件或文件夹名称,以及文件存放位置。

src

存放运行代码的目录。

clean_data.py 数据预处理模块

该模块主要内容如下:

  1. 数据探查,分析数据集各字段值的情况。
  2. 检查和剔除异常值,主要剔除无效的时间字段和无效的用户行为字段。
  3. 字段转换,将浮点型的时间戳转换成更便于使用的时间型字段。
  4. 筛选数据集,筛选出比较集中的2017-11-25至2017-12-03的数据。
  5. 全字段去重,剔除重复数据。
goods_summary.py 商品分析模块

该模块主要内容如下:

  1. 热销商品分析
    按照商品编号,统计每个商品的销售数量,并按销售数量降序排列,同时计算出每个商品销售数量的占比,并打印排名最靠前的20个热销商品销售信息。

  2. 热销商品品类分析
    按照商品类型编号,统计每个商品类型的销售数量,并按销售数量降序排列,同时计算出每个商品类型销售数量的占比,并打印排名最靠前的20个热销商品类型销售信息。

charts_funnel.py 业务流程转换分析

该模块主要内容如下:

  1. 计算各种用户行为的出现的次数(pv(商品点击)、buy(购买)、cart(添加购物车)、far(收藏))。
  2. 将上述四种用户行为划分为三级环节,分别为:
    第一级:pv(商品点击)
    第二级:cart+far(添加购物车或者收藏)
    第三级:buy(购买)
    计算:
    单一环节的转换率:即本级环节次数/上级环节次数。
    总体转换率:即本级环节次数/第一级环节次数。
  3. 打印转换率情况
  4. 将总体转换率数据制作漏斗模型,图表文件保存在项目根目录,名称为:
    funnel_conv.html
    该图表文件可以使用浏览器打开查看。
RMF.py 客户价值标签分析

该模块主要内容如下:

  1. 通过用户行为字段,筛选出所有用户行为为购买的记录。
  2. 将上述数据集,以2017-12-04为观察日期,计算每次购买行为距离2017-12-04相差天数。
  3. 将步骤2的数据集,以用户编号进行分组,计算每个用户购买行为距离2017-12-04相差的最小天数。
  4. 将步骤2的数据集,以用户编号进行分组,计算每个用户购买次数。
  5. 将步骤3和步骤4生成的数据集,通过用户编号字段进行关联,得到一份数据集。
  6. 将上述数据集,通过购买行为距离2017-12-04相差的最小天数,计算出R标签(最近一次消费天数<=5是低,否则是高)。
  7. 将上述数据集,通过购买次数,计算出F标签(一段时间内购买次数>=4是高,否则是低)。
  8. 计算RMF标签,根据高低值打分,将用户分为价值用户、发展用户、保持用户和挽留用户四种,并对不同类别的用户占比进行分析,从而实现差异化营销。:
    if r=="高" and f=="高":
        return "价值客户"
    elif r=="低" and f=="高":
        return "保持客户"
    elif r=="高" and f=="低":
        return "发展客户"
    else:
        return "挽留客户"
  1. 统计每种用户的数量,并通过柱状图进行展示。

相关文章

  • 橙子的ScalersTalk第六轮新概念朗读持续力训练Day 1

    练习材料:[Day 2702 2022-02-17] L15-2:Fifty pence worth of tro...

  • iOS(Swift) 路由设计

    2022-02-17 更新url 编码 最近在整理 flutter 面试的内容,顺便也回顾swift 的框架,面试...

  • 0109爱的冥想|如何寻找自己的灵魂天赋使命

    2022-02-17 北京 晴天 我的天命是什么? -分享灵魂的天赋,让世界变得美好闪亮。我的灵魂的天赋是什么?-...

  • 最后 的日记(全)

    2022-02-17 星期四 今天没和他吵架,甚至连人都没见着。 昨天,在表哥的车上,他让我去死!这样的话他都...

  • 最后的日记

    2022-02-17 星期四 今天没和他吵架,甚至连人都没见着。 昨天,在表哥的车上,他让我去死!这样的话他都...

  • 2022-02-17情怀

    《100天打卡》 2022-02-17 小结:复盘重点,《各模块一句话反思》 一转又快到了周末,这几天忙碌,但...

  • 2022-02-17生活日志

    2022-02-17生活日志 1、妙语连珠 堂前偶为客坐井说天阔大志戏功名怒指乾坤错 2、今日工作 和老婆关于招聘...

  • 对“垃圾人”最好的处理方式

    幸福日志2022-02-17 周四小雪 自从发生了楼下半夜带一帮男男女女敲门吵架,拉黑了所有方式,没想到时隔快一年...

  • 2022-02-17

    2022.2.17 周四 雨 7-2度 今天是2022年工作的第二个星期的周四,中午1点左右室外飘起雪来,大片白...

  • 2022-02-17

    本学期工作重点:1.督导评估,迎接教育局质量抽检,期末考试。 本月(即第一、二周)工作重点:开学报名,统计、核查各...

网友评论

      本文标题:2022-02-17

      本文链接:https://www.haomeiwen.com/subject/vyyslrtx.html