数据蛙-App Store评分数据案例学习

作者: Chad你要加油 | 来源:发表于2020-03-22 23:29 被阅读0次

2020年的金三银四开始啦,今年想转到数据分析相关的岗位,我计划边复习边面试,今天开始做一个App Store评分数据案例,持续更新一份学习的笔记。

手机应用商店

开始记录 2020-3-22

如今想在手机应用商店上成为成功的应用越来越困难,对app下载和评分数据的分析是成为帮助App开发人员获取和留存用户的重要工具。商店应用数据具有巨大的潜力,可推动应用制作业务取得成功,还可以为开发人员提供可操作的见解,同时以便开发和捕获移动市场。

首先我们细化三个问题

  • 免费和收费的app集中在哪些类别?
  • 收费App的价格分布是如何的?不同的类别的价格分布是怎么样的?
  • App文件的大小和价格以及用户评分之间有关系吗?

分析流程

  1. 数据概况分析
  • 数据行/行数量
  • 确实值分布
  1. 单变量分析
  • 数字型变量的描述指标(平均值、最小值、最大值、标准差等)
  • 类别型变量(多少个分类,各类占比)

3.多变量分析

  • 按类别交叉对比
  • 变量之间的相关性分析
  1. 可视化分析
  • 分布趋势(直方图)
  • 不同组差异(柱状图)
  • 相关性(散点图/热力图)

字段说明

id : 苹果提供的APPID,每个app唯一                  
track_name  :APP的名称      
size_bytes   :以byte为单位的app大小     
price  : 定价(单位美元)    
rating_count_tot  : 该app所有版本的用户评分数量
user_rating   :该app所有版本的用户评分
prime_genre  : app的类型  
sup_devices   : 支持的ios设备数量     
ipadSc_urls     :app提供的截屏展示数量  
lang :支持的语言数量

开始写代码:

先读取数据
我们来看下info()可以查看数据的基本情况,



打印前5行,发现了第一列unnamed 0 是个无意义的变量,数据需要清洗,可以考虑用drop



无意义变量 用drop 注意:
  • drop默认是对行
  • axis=1 为列
  • inpace表示直接替换掉原有数据
  • 注意大小写

接下来,我们对数字型变量做整体描述

为什么做整体描述 ?

因为只对数字型变量有效果,体现数据的集中度(中位数)还有数据的离散度(方差,标准差)



在上图看看size_bytes和price,先看size_bytes是以字节为单位,这里是以科学计数法显示,这样的数字巨大难以分析,要转变为兆mb看更合适做分析。
到price,看到中位数显示是0,那么0就是免费app,可以分析免费app和收费app。

创建变量

刚才我们看了size_bytes和price都需要做处理,先从size_bytes开始,将size_bytes变成mb,需要新增数据



此时已经新增了一个数据是size_mb,再单独做一个描述统计



这样看着就好理解很多,有零点几兆的app,也有四十多兆,还有五十多兆,最大的app有3000多兆,分析也很便捷。

接下来,还需要创建一个变量,即免费/收费的标签,这样可以告诉我们这个app是免费的还是收费的,方便后续分析



图中的lambda是用来阐述规则的,x为price,paid等于0or1,如果price大于0,paid为1,否则,paid为0.
还有中位数显示为零,说明免费的app还是占挺多的


今天暂时更新到这,明天继续更新,先休息了

可加公众号【数据蛙DataFrog】,我们一起学习交流

关注数据蛙

相关文章

网友评论

    本文标题:数据蛙-App Store评分数据案例学习

    本文链接:https://www.haomeiwen.com/subject/ihsbyhtx.html