美文网首页解密大数据
数据分析入门毕业项目:电商购物平台母亲节礼品特征分析

数据分析入门毕业项目:电商购物平台母亲节礼品特征分析

作者: 超_Megan | 来源:发表于2017-07-05 09:22 被阅读188次

    本文是数据分析入门课程的毕业项目,我选的题目是电商购物平台母亲节礼品特征分析。

    前言

    1. 分析背景
      不知道大家有没有感觉到给老人送礼是个难事,也是门学问。出于好奇心和孝心,想对电商购物平台母亲节礼品的购买数据进行分析,找出一些数据指标,比如:价格,销量,类别等。从而找到大家买得较多较好的礼品类目,指导未来为老人送礼的购买决策。

    2. 所需解决的问题

      • 主要有哪几类经常送老人的礼物?
      • 在某一个大类产品中,可以细分为哪些具体的产品?
      • 销量前十的产品有哪些?
      • 销量前十的产品的品牌有哪些?
      • 销量和价格是否存在一定的关系?

    数据集描述

    本项目使用的数据都是通过八爪鱼抓取的天猫上的数据。这里选取了三类商品,分别是老人按摩类商品、老人医疗及健康服务类商品、老人手机。因此数据集由这三类商品构成。收集了商品的标题、价格、品牌、月销量、累计评价、商品名称等信息。
    遇到的问题:天猫对爬虫软件有限制,导致无法一次抓取到全部数据。最后采用了一个workaround,因为八爪鱼里第二页搜索结果抓不全(似乎天猫的防抓取规则是通过计时间来完成的),重新从第二页开始抓取数据(指定打开的网页从第二页开始)。八爪鱼的使用不在本文的讨论范围。

    方法论

    做这个毕业项目,主要的方法论是根据Tiger提供的数据分析(Data Analytics)套路。

    360截图20170629155224203.jpg

    项目步骤

    1. 数据获取:通过八爪鱼抓取天猫的数据。
    2. 数据清洗:整理数据,将不规范的数据规范化,缺失的数据补齐。
    3. 数据分析和可视化:确定数据指标,并将分析结果可视化。
    4. 商业洞察和最终的分析报告。

    数据清洗

    因为抓取的按摩产品数据包括很多商品,比如:按摩椅、腿部按摩器等。而标题并不能完全反映出商品名称,手动处理,添加商品名称列。产品名称和型号个人感觉作用不大,抓取的数据很多有误,决定抛弃这两列数据。
    其他数据清洗包括:去掉重复数据,填充数据。

    df = pd.read_excel(data, 'All')
    df.drop_duplicates()
    
    # 填充空值
    df['促销价格'] = df['促销价格'].fillna(df['价格'])
    df['价格'] = df['价格'].fillna(df['促销价格'])
    df['累计评价'] = df['累计评价'].fillna(0)
    

    数据分析和可视化

    • 按摩类产品之按摩椅
    按摩椅价格直方图.jpg 按摩椅累计评价直方图.jpg

    按照累计评价降序排列,找出前十个产品:

    累计评价前十产品.jpg

    按照月销量降序排列,找出前十个产品:

    月销量前十产品.jpg

    结论:大部分按摩椅的价格小于10000。10000-50000之间占很小的部分。最高价格接近50000。其中,价格在5000左右的占比最高。
    大部分按摩椅的累计评价也就是累计销量都小于1000。1000-4000的数量非常少。

    • 按摩类产品之按摩床垫
    按摩床垫价格直方图.jpg 按摩床垫累计评价直方图.jpg

    按照累计评价降序排列,找出前十个产品:


    累计评价前十.jpg

    按照月销量降序排列,找出前十个产品:

    月销量前十.jpg

    结论:按摩床垫价格比较便宜,大部分价格小于275。价格在200-212之间占比最高。大部分按摩床垫的累计销量都小于2000,大于10000的很少。

    • 其他按摩产品
    其他按摩产品的价格直方图.jpg 其他按摩产品的累计评价直方图.jpg

    按照累计评价降序排列,找出前十个产品:

    累计评价前十.jpg

    按照月销量降序排列,找出前十个产品:

    月销量前十.jpg

    结论:其他按摩产品的大部分价格都小于750,价格小于125的占比最高。大部分累计销量小于2000。

    • 按摩类产品总的分析
    按摩产品分类饼图.jpg 其他按摩产品分类饼图.jpg

    结论:最受欢迎的按摩产品是按摩椅,数量占总数据量的65.69%,其次是其他类按摩产品,数量占总数据量的28.43%。在其他类按摩产品中,最受欢迎的是腿部按摩器,数量占总数据量的34.48%, 其次是手持按摩器,数量占总数据量的22.41%,第三是脚步按摩器,数量占总数据量的20.69%。

    • 医疗健康类产品之体检卡
    体检卡的价格直方图.jpg 体检卡的累计评价直方图.jpg

    按照累计评价降序排列,找出前十个产品


    累计评价前十.jpg 累计评价前十的机构饼图.jpg

    按照月销量降序排列,找出前十个产品


    月销量前十.jpg

    结论:体检卡的价格大部分小于1500,最多集中在1000左右。1500-2500的较少,大于2500的更少。累计销量大部分小于250。累计评价前十的体检卡机构瑞慈占50%,普惠和爱康国宾占20%,慈铭占10%。

    • 医疗健康类产品之其他产品
    其他产品的价格直方图.jpg 其他产品的累计评价直方图.jpg 细分其他产品饼图.jpg

    结论:医疗健康类产品之其他产品的价格大部分小于100,累计评价大部分小于10。从饼图中可以看出高血压慢性病管理服务占60%,心理咨询占40%。

    • 手机
    手机价格的直方图.jpg 手机累计评价的直方图.jpg

    按照累计评价降序排列,找出前十个产品

    累计评价前十.jpg 累计评价前十的老人手机品牌饼图.jpg

    按照月销量降序排列,找出前十个产品

    月销量前十.jpg 价格和累计评价散点图.jpg

    结论:老人手机大部分价格小于1000,价格更多集中在小于500的范围内。累计销量大部分小于25000。从饼图中看出,累计销量前十的老人手机品牌,第一的是尼凯恩,占30%,第二是小米,占20%,纽曼、诺基亚、中兴、天语、优思各占10%。从散点图中看出,销量较好的手机价格都小于1000。但并不能看出销量和价格之间确定的关系。

    分析结论

    1. 按摩产品受欢迎程度:按摩椅 > 腿部按摩器 > 手持按摩器 > 脚步按摩器
      如果为老人选购按摩产品的话,首选是按摩椅。具体买哪一种按摩椅可以参考按累计评价排名前十的按摩椅。而参考月销量排名前十的按摩椅可以看到近期的一个趋势。

    2. 医疗健康类产品中体检卡的销量不高,说明人们还是很少在电商购物平台购买这类产品。其中健康服务类:高血压慢性病管理服务和心理咨询的销量就更少。这是新兴的网购产品,高血压在老人中还是非常普遍的。也许未来可以扩大医疗健康类产品的市场,人们在电商购物平台可以方便地购买各类产品将成为一个趋势。
      几个体检机构瑞慈,普惠,爱康国宾和慈铭也可以指导我们在线下的购买体检卡的决策。

    3. 受欢迎的老人手机价格比较便宜,受欢迎的有这几个品牌:尼凯恩,小米,纽曼,诺基亚,中兴,天语,优思。非智能手机依然占有很大的比重。智能手机厂家也可以努力开拓老人智能手机市场。未来智能手机成本越来越低,必将占领老人手机市场。
      个人认为送老人手机也是个不错的选择。具体买哪一种手机可以参考按累计评价排名前十的手机。

    其他思考

    1. 对爬虫工具的使用不熟练,导致数据选取得较少。但是按照销量选取了排名靠前的数据,基本反应了真实的情况。有些数据无法抓取到,比如商品评分。
    2. 数据分析经验的缺乏会导致对数据的解读不够深刻。

    主要参考资料

    1. Tiger数据分析入门课程的资料和作业
    2. 余博文章:独家!完整到爆的数据分析流程剖析

    感谢

    首先要感谢Tiger和余博的帮助,以及社群中其他朋友的帮助。这个社群为大家营造了积极向上的学习数据分析的环境,牛人很多,我也学到了很多。如果没有之前的积累,没有认真上课和做作业,这个项目也无法完成。
    感谢张洁同学参与了项目选题的讨论。

    相关文章

      网友评论

        本文标题:数据分析入门毕业项目:电商购物平台母亲节礼品特征分析

        本文链接:https://www.haomeiwen.com/subject/mfrmcxtx.html