一、背景介绍
电子商务相对于传统零售业来说,最大特点就是一切都可以通过数据化来监控和改进。通过数据可以看到用户从哪里来、如何组织产品可以实现很好的转化率以及投放广告的效率如何等等问题。“无数据,没运营”,业务目标可以通过数据来量化,战略也需要通过数据进行决策,因此,对于业务部门来说,数据是最基础的,也是十分重要的。
二、思考途径
2.1 提出问题
a,不同国家的消费者有不同的消费喜好,为了能更好安排不同国家的商品类型和价格策略,需要知道不同国家的消费者对商品类型和商品价格的偏好以及主要消费者具有怎样的特征?
b,各国消费水平的差异?制定不同的运营战略。
c,统计出一年当中哪个月度和季度销量最高?为网站的销售旺季,提前做好流量管理;提前安排好采购、物流等工作。
d,了解商品的单品退货率与整体退货率情况,可以快速帮助商家找到问题所在。
2.2 问题解决途径
客单价以及退货率分析.png三、理解数据
数据来源地址:
kaggle—— E-Commerce Data
数据解释:
该数据集是由 Machine Learning Repository 在基于一个英国电商公司从2010年月12号到2011年9月12号的真实的交易数据集进行改造的。 该电商主要销售的商品是各类礼品, 主要客户是各类经销商。
数据集大小:541909x8
数据集的特征:
InvoiceNo/订单编号:每笔交易分配唯一的6位数,需注意退货订单的代码以字母'c'开头。
StockCode/商品编号:每个不同的产品分配唯一的5位整数。
Description/产品描述:对每件产品的简略描述。
Quantity/数量:每笔交易的每件产品的数量。
InvoiceDate/订单日期:每笔交易发生的日期和时间。
UnitPrice/单价:单位产品价格。
CustomerID/顾客账号ID:每个客户分配唯一的5位整数。
Country/国家:每个客户所在国家/地区的名称。
四、数据清洗
4.1 选择子集
只选择对数据分析有意义的字段,无意义的字段进行暂时隐藏。
根据我们需要解决的业务问题,C列商品描述和B列商品编号是一一对应关系,只需要保留B列就可以了,我们选择隐藏。
4.2 列名重命名
将列名更改成中文
4.3 删除重复值
由于各字段,订单编号、商品编号、描述、数量、订单日期、单价、顾客ID、国家,按照收集规则,各列都可能会存在数据重复的问题,因此不做删除。
4.4 缺失值处理和异常值处理
4.4.1 缺失值处理
客户编号出现空值,而且缺失值较多,并且是不可计算或者预估的,故做删除空值。
4.4.2 异常值处理
4.4.2.1 单价列中的零值和负值:
在单价列中,发现存在2512 行0值和负值,不符合数据销售逻辑。 通过对货物描述的查看, 发现大部分的单价为0的记录是对有缺陷货物的处理或者是礼品。 此类数据对所提出问题的分析无用,所以进行删除。
4.4.2.2 在数量列中的负值
在数量列中, 发现有9288 个记录是负值, 发票号由首字母和数字组成,推测此类记录为退货记录. 决定此类数据进行分列处理,定义新列命名为退货数量,原列为购买数量。
4.5 补充必要数列
4.5.1 补充销售额列
由于需要做销售额的比较,销售额=单价*购买数量,因此我们增加一列,并且调用乘法函数。
4.5.2 分出订单的日期和时间两列
五、构建模型
问题1 客户购买商品类型以及价格偏好、购买主力
a.哪些商品较受欢迎
销量前十名商品总体销量情况
总结:
头部商品优势很突出
销量前十名占比达到了8%,建议与这些商品的供应商进行长期品牌化的合作,确保货源充足。
长尾效应明显
可以看到,这家线上零售商大部分的销售量是由底部产品提供的,90%的商品销量在20000以下。
b.哪个价位段最受目标客户喜好
将异常价格设置为单独组。
添加单价区间列,通过VLOOKUP 函数 (=VLOOKUP(E38,价格分组!2:14,2,1)))将单价分为下列组:
并通过插入透视表(下图)
得出,大部分的礼品价格位于0-3这个价位段, 由此,我们可以知道, 该市场的目标客户为低端客户,这可能是平台售卖商品类型与主要客户是批发商有关。
c.哪些消费者是购买的主力
客户类型:
大型批发商:
消费金额特别巨大的一般是大型批发商,平台可以针对这种客户开发To B的服务。
专业买手或者小型商店:
虽然在购买金额远远无与大型批发商相比,但其在为商品宣传方面的能力是不容小觑的,平台可以与一些受众广泛的买手达成宣传方面的合作。
消费能力较强的用户:
考虑到礼品不是日常生活用品,一年消费400美金以上应该是在平均消费者能力以上。平台可以考虑给这类消费能力较强的消费者一些优惠或者提供更细致的服务。
普通用户:
正常消费
问题2 不同国家的消费水平对客单价的影响
客单价的计算方式:客单价=销售总额/总客户数
由于客户编号的计数统计出来的数据有重复,所以在各国客户人数上,我们用Count函数继续统计。结果写入F5。以此给各国做客单价计算。
[注:从透视表中提取数据,需要用到GETPIVOTDATA函数,该函数的语法结构为=GETPIVOTDATA(条件,条件引用的区域,项目1,项目1对应的内容,项目2,项目2对应的内容……)
以提取五金1,型号1835的数量为例,输入公式=GETPIVOTDATA("数量",1,"品名","五金1","型号","1835")。]
依次求出各国客单价
客单价统计结果
数据可视化处理,可看出
各国销售额
由于英国的消费总量占全部销售额的82%,在同一坐标下,其他国家的数据指标不好做比较,因此我们去掉英国之后,再进行分析。
除了英国,爱尔兰在消费总量排名靠前的国家里客单价非常高;新加坡是消费总额在22万英镑以下的国家中客单价是最高的。
荷兰,爱尔兰,新加坡这些发达国家消费水平较高,和平台客单价有一定的关系。
问题3 哪些时段是购买的高峰期,这些时段有什么特征
数据透视表统计网站月度、季度销售额及销量
月度
季度
可视化,
一年中5、8、9、10、11月是销量的高峰期,平台商品销量以及销量额都增加较快。
由于礼品与节日强相关,尤其是圣诞节、感恩节,可以针对不同节日的特点推广不同的商品。
而平台方面需要物流、采购、网站流量维护等各方面提前做好准备。
问题四 退货商品
各国退货率比较
image.png退货率排名前五的国家:美国,沙特阿拉伯,西班牙,爱尔兰,德国。其中,美国年退货率快高达6%,遥遥领先于其他国家。
六、结论
1.英国销售额是全部的82%,占据本土优势,销量靠前的大部分都是欧洲国家,由此可见该平台的主要市场还是在欧洲,可以着力开发除了欧洲市场之外的消费水平较高的市场。
2.绝大多数销量靠前的产品单价都是低价的,这与平台主要售卖商品类型和客户有较大关系。针对这些批发商用户,制定合理价格机制,控制商品成本,优化物流运输以提供物美价廉的商品。提高销量。同时,可以增加1-3英镑产品的多样性,有利于增加客户的消费额度, 同时也能吸引更加多的目标客户。
- 8、9、10、11月是销量高峰期,需要平台物流、采购、网站流量维护等方面提前做好准备。
4.退货率过高,原因主要有物流时间过长,商品实际与描述不符合,产品本身有质量问题等。建议:要及时处理跟进,优化商品采购,物流运输,店铺管理等,降低退货率,跟买家营造良好的购物环境,增进客户忠诚度。
网友评论