用户分群,产品分群是互联网里面精细化运营一个方法。
这个分群用2个方法实现:
- Tableau提供群集的方法进行分群,运用的是方差分析方法。
- 使用均值对数据进行分类,可以延伸为波士顿矩阵分析。
数据说明
还是一如既往的是Tableau官方案例数据:示例超市
方法一
用【销售额】和【利润率】对客户进行分类,在分析里面点击群集,这个案例手动设置的群集数是4。
点击群集,选择“描述群集”可以查看分群的依据。
勾选“显示缩放的中心”,会对销售额和利润率进行预处理。处理方法的公式(也称为最小值-最大值标准化)为 (x – min(x))/(max(x) - min(x))。
其他说明:
群集即聚类,物以类聚的理念,Tableau使用 k 均值算法进行群集。对于给定的群集数量 k,算法将数据划分为 k 个群集。每个群集都有一个中心(质心),它是该群集中所有点的平均值。K 均值迭代过程来查找中心,该过程可最大程度地缩短群集中各个点与群集中心之间的距离。
- 组间平方和:将群集间隔量化为每个群集的中心(平均值,通过分配给群集的数据点数加权)与数据集中心之间的平方距离总和。值越大,群集之间的间隔就越好。
- 组内平方和:将群集内聚性量化为每个群集的中心与群集中单个标记之间的平方距离总和。值越小,群集的内聚性就越高。
- 总平方和:计算组间平方和与组内平方和的总和。(组间平方和)/(总平方和)的比率提供模型所解释的差值百分比。值介于 0 和 1 之间;值越大,通常表明模型越好。
-
F 统计数据:单因素 ANOVA 的 F 统计数据是变量所解释的方差分数。它是组间方差与总方差的比率。
F 统计数据越大,在群集之间就能更好地区分对应变量。 - p 值:指 F 统计数据所有可能值的 F 分布的值大于变量实际 F 统计数据的概率。如果 p 值低于指定的显著性水平,则可以拒绝零假设(变量的单独元素是单个群体的随机样本)。此 F 分布的自由度为 (k - 1, N - k,其中 k 是群集数,N 是已建立群集的项数(行数)。p 值越低,对应变量的元素的预期值在群集之间的区别就越大。
- 模型平方和及自由度:模型均方值是组间平方和与模型自由度的比率。组间平方和是对群集均值之间差值的度量。如果群集均值彼此很接近(因此与总均值也很接近),则值将很小。模型的自由度为 k-1,其中 k 为群集数。
- 误差平方和及自由度:误差平方和是组内平均和与误差自由度的比率。组内平方和测量每个群集内的观察值之间的差值。误差的自由度为 N-k,其中 N 是已建立群集的总观察值数(行数),k 为群集数。可以将误差平方和看作是总体均方误差,并假定每个群集中心都表示每个群集的“真实值”。
- Tableau帮助文档
方法二
如上图所示,选择的指标依旧是【销售额】和【利润率】
- 创建计算字段:
avg-销售额:WINDOW_AVG(sum([销售额]))
avg-利润率:WINDOW_AVG([利润率])
销售额-均值:STR([avg-销售额]>SUM([销售额]))
利润率-均值:STR([avg-利润率]>([利润率]))
分类:[利润率-均值]+'-'+[销售额-均值] - 将字段拖入到上图的图示位置,然后对【分类】字段编辑表计算,按下图所示方法,【avg-销售额】和【avg-利润率】选择“特定维度”,然后全部勾选,即可按行列上的指标按平均值进行分类。
其他说明:
- window_avg的函数意思是获取视图窗口表达式的平均值
- [avg-销售额]>SUM([销售额])输出的数据类型是布尔,但是tableau里面一般操作是只能放一个字段到“颜色”上,现在是根据2个指标进行分类,需要将字段拼接起来,所以前面加上str更改数据类型为字符串(也可以将布尔字段上右键选择“更改数据类型”强制换成字符串,效果一样)
案例地址:
https://public.tableau.com/profile/dannyer520#!/vizhome/_27679/sheet2
网友评论