2020年的金三银四开始啦,今年想转到数据分析相关的岗位,我计划边复习边面试,今天开始做一个App Store评分数据案例,持续更新一份学习的笔记。
手机应用商店开始记录 2020-3-22
如今想在手机应用商店上成为成功的应用越来越困难,对app下载和评分数据的分析是成为帮助App开发人员获取和留存用户的重要工具。商店应用数据具有巨大的潜力,可推动应用制作业务取得成功,还可以为开发人员提供可操作的见解,同时以便开发和捕获移动市场。
首先我们细化三个问题
- 免费和收费的app集中在哪些类别?
- 收费App的价格分布是如何的?不同的类别的价格分布是怎么样的?
- App文件的大小和价格以及用户评分之间有关系吗?
分析流程
- 数据概况分析
- 数据行/行数量
- 确实值分布
- 单变量分析
- 数字型变量的描述指标(平均值、最小值、最大值、标准差等)
- 类别型变量(多少个分类,各类占比)
3.多变量分析
- 按类别交叉对比
- 变量之间的相关性分析
- 可视化分析
- 分布趋势(直方图)
- 不同组差异(柱状图)
- 相关性(散点图/热力图)
字段说明
id : 苹果提供的APPID,每个app唯一
track_name :APP的名称
size_bytes :以byte为单位的app大小
price : 定价(单位美元)
rating_count_tot : 该app所有版本的用户评分数量
user_rating :该app所有版本的用户评分
prime_genre : app的类型
sup_devices : 支持的ios设备数量
ipadSc_urls :app提供的截屏展示数量
lang :支持的语言数量
开始写代码:
先读取数据
我们来看下info()可以查看数据的基本情况,
打印前5行,发现了第一列unnamed 0 是个无意义的变量,数据需要清洗,可以考虑用drop
无意义变量 用drop 注意:
- drop默认是对行
- axis=1 为列
- inpace表示直接替换掉原有数据
- 注意大小写
接下来,我们对数字型变量做整体描述
为什么做整体描述 ?
因为只对数字型变量有效果,体现数据的集中度(中位数)还有数据的离散度(方差,标准差)
在上图看看size_bytes和price,先看size_bytes是以字节为单位,这里是以科学计数法显示,这样的数字巨大难以分析,要转变为兆mb看更合适做分析。
到price,看到中位数显示是0,那么0就是免费app,可以分析免费app和收费app。
创建变量
刚才我们看了size_bytes和price都需要做处理,先从size_bytes开始,将size_bytes变成mb,需要新增数据
此时已经新增了一个数据是size_mb,再单独做一个描述统计
这样看着就好理解很多,有零点几兆的app,也有四十多兆,还有五十多兆,最大的app有3000多兆,分析也很便捷。
接下来,还需要创建一个变量,即免费/收费的标签,这样可以告诉我们这个app是免费的还是收费的,方便后续分析
图中的lambda是用来阐述规则的,x为price,paid等于0or1,如果price大于0,paid为1,否则,paid为0.
还有中位数显示为零,说明免费的app还是占挺多的
今天暂时更新到这,明天继续更新,先休息了
关注数据蛙可加公众号【数据蛙DataFrog】,我们一起学习交流
网友评论