数据挖掘之陈列的艺术

作者: Jeru_d39e | 来源:发表于2019-12-24 17:29 被阅读0次

数据挖掘之陈列的艺术
数据挖掘十大经典算法，你都知道哪些！
数据挖掘比赛技巧
学习笔记--(移动数据挖掘引言)
时空数据挖掘
数据挖掘之模型评估(均方误差、精确率、召回率及ROC曲线的含义)
数据挖掘之引论
漏洞挖掘之爆破的艺术
大数据、数据分析和数据挖掘的区别
数据运营笔记

image.png

陈列空间是线下门店与线上电商的核心差异之一，这个几乎贯穿了商品全链条的迷之问题大大增加了线下零售运营的复杂度，同时它的规律又是如此的难以捉摸，从本质上来说，我们会关心两个问题:

最小陈列量 - 至少要多少陈列量才能产生有效销售?
销量衰减规律 - 如果拉大陈列排面，销售肯定会相应增加，但是销量的增加肯定会随着陈列的增加呈现一个递减效应，那么陈列量的变化和销售量的变化之间是一个什么函数呢?

这个场景很容易联想到微观经济学中的两个话题: 量价关系的价格弹性曲线和生产函数的三个阶段。

价格弹性曲线理论很完美但是我一直对实操性心存疑惑，很多商品的生命周期不长，而且历史价格变动也不多，对于大多数商品来说可能我们没有足够的数据来拟合出那根弹性曲线，自然也就找不到最佳平衡点在哪里。而每个商品库存与销量却有海量数据可以挖掘，对于指定商品，每个门店每天的库存和销量都在变化，将指定商品的相同店存数据聚合起来就能绘制出库存与销量的函数曲线了。

生产函数

The law of diminishing marginal returns states that, at some point, adding an additional factor of production results in smaller increases in output
上面这段生产函数中关于边际产量递减规则定义正好对应我们关心的第二个问题，库存和商品正如产能函数中的成本和收益，可以把它当做一个生产函数来理解:Q=f(L, K), 因为只研究库存变化对销售的影响，我们关心的是只有一个生产要素的短期生产函数Q=f(L)

短期生产函数定义了三个核心指标

总产量：TP=f(L)
平均产量：AP=TP/L=f(L)/L
边际产量：MP=△TP/△L
MP就是TP对L求导，也就是TP的斜率
说明:生产函数里的L指的是Labor, 在陈列场景中这个生产要素就是库存了，但是我依然继续沿用L这个符号

结合下图的三个生产阶段来回顾一下理论知识

Production Stages
图中有三个特殊的点ABC
A点是TP斜率最大的地方，也就是MP的最大值
B点是AP最大值，也是AP与MP的交汇点(对AP求导就可以推出AP=MP时AP最大)
C点是TP最大点，也是MP等于零的点

根据这些点把生产过程划分成三个阶段(颜色标记)

第一阶段 - 横轴B点之前是平均产量递增阶段
B点之前AP一直处于增长

第二阶段 - B点与C点之间是平均产量递减阶段
AP达到最大值并开始下降，同时TP升幅变缓。

第三阶段 - C点之后是边际产量为负阶段
MP为零，TP达到最大值并开始下降
这个阶段的意思大概就是说三个和尚没水吃，不过我们这个场景中基本不会到达这个阶段，随着陈列量的增加，销量最多持平。

对于生产函数而言第一阶段和第三阶段都是不合理的，我们要找寻的是合理的第二阶段区间范围，即起点为when MP=AP, 终点为when MP=0.

数据可视化

现在回到现实世界中，抽了100个商品的几千万条数据聚合可视化，生成TP, AP, MP曲线
观察B商品的AP和MP, 似乎和理想中的模型不一样，两者多次交叉，当库存为6时MP最大

b-ap-tp

再观察B商品的TP和AP, 当库存为7时出现第一个TP峰值，而AP也从此开始一路下滑

b-ap-mp

拟合函数

从上图看出总产量TP受库存数量的随机影响比较强，随着库存的增加有时销量反而会下滑。
所以可以考虑把总产量曲线用多项式拟合一下得到稳定平滑的曲线，再重新计算对应的AP和MP，最后绘制图表呈现结果，绘制曲线时虚线为实际TP, 实线为拟合TP, 加号为AP, 星号为MP.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_excel("d:/dev/stock-sale-b.xlsx", nrows=30)

x = df.loc[:,'stock']
y = df.loc[:,'sale']
z = np.polyfit(x, y, 4) #四阶系数

p = np.poly1d(z) #拟合函数
      
ap = p(x)/x # 平均产量

def f(x, z): # 求导函数
    return z[0]*(x**3)*4 + z[1]*(x**2)*3 + z[2]*x*2 + z[3]

mp = f(x, z) #边际产量
print(mp) 

plt.plot(x, y, '.', x, p(x), '-', x, y, '--', x, ap, '+', x, mp, '*')
plt.ylim(0, np.max(y))
plt.show()

这段代码中多项式的选择和nrows的选取都会对结果带来影响，尤其是nrows的条数应该根据商品的实际平均销量动态设置，效果会更好。

观察B商品，现在能看到库存为22时MP到达波谷，库存为4时AP与MP交汇(对应B点)，而肉眼观察实际产量感觉库存为7应该是最小库存，这是因为前期的局部拟合函数与实际TP差异较大，所以所以在寻找最小库存的时候应该把nrows设置的更小一些，如果设为15再运行一次代码[如图b-polyfit-2]就会看到AP和MP在库存为7时交叉了，所以7和22之间可能就是B商品库存陈列的合理范围，小于下限则销量大幅下滑，大于上限对销量提升也不大。