美文网首页产品经理数据可视化大数据
数据分析工具箱v1.2——交叉分类

数据分析工具箱v1.2——交叉分类

作者: 真依然很拉风 | 来源:发表于2019-08-09 20:56 被阅读101次

将一个指标按单一维度进行分布统计,是探索性数据分析的一个基本、常用的方向,可以快速发现数据规律——不过可能会有遗漏维度之间关系的风险,因此多维交叉分析对于深层、细致的分析是有必要的。

如果多维交叉后的熵或者方差越大,则一般越容易发现insight。然而,对于n维数据集,聚合方式理论上有2^n种;尽管不是每一种组合都有鲜明的业务意义,不过每次都单独跑数或者计算,显然是一个比较大的成本。这个时候就需要数据平台来支持数据分析,进行快速地、自由地、可视化地进行多维交叉分析,以便高效地发现结论。

上传数据

老规矩,第一步先上传数据。这里依然上传随机构建的DAU数据。然后可以进行数据处理,也可以不处理。


随机构建的DAU分布样例数据

交叉分类

基于用户上传的数据集,有3个下拉框。第1个可以选择多个维度;第2个是聚合方式(支持count、count distinct、sum这三种函数);第3个是聚合变量,只能选1个,如果前面选择的聚合函数是count或者count distinct,则这里可选择id型变量;如果前面选择的聚合函数是sum,则这里可选择数值型变量。

交叉分类控件

(其实还可以多一个控件,支持用户基于现有的字段,自定义标签,用来构建新的维度。这对于数据产品来说是有必要的,因为平台没有办法把用户感兴趣的维度完全罗列,但可以开放一个窗口,支持用户自己去添加维度。不过在这个数据产品demo中就不是很必要,因为本来就是要自己上传数据,需要什么整理好再扔上来。好吧,其实真实的原因是我不会写(没找到可支持)这么复杂的前端交互操作(的包)。)

选定一个聚合变量以及聚合方式后,可自由地选择多个维度,下面自动展示可视化图形。如果只选1个,则展现柱形图;如果维度大于等于2个,则以alluvial diagram形式展示。

比如只看分渠道的DAU分布。


分渠道的DAU分布

比如只看分活跃度的DAU分布。


分活跃度的DAU分布

当然,这2个维度也可以同时都选上,这样就是看在渠道和活跃度2个维度交叉作用下,DAU的分布。这时就出现了alluvial diagram,可以看到线条有红色和蓝色的——红色的线条表示当前分解下的数据高于平均值,反之则为蓝色。每一个维度下的矩形高度,代表着当前维度值在该维度下的比例。

渠道*活跃度下的DAU分布

那么进一步地,我们可以选3个乃至更多的维度,来做交叉分类分析。

3维交叉分析 4维交叉分析 5维交叉分析 6维交叉分析 7维交叉分析 8维交叉分布 9维交叉分布

显而易见地,如果选择的维度越多,维度的枚举值越多,线条就越多,大部分的线条就细得看不清。而如前所述,倘若熵或者方差越大,则会有少数几条相对较粗的线条格外显眼——这就是需要关注的case!

有的时候线条太多太乱,看不出什么有效信息的时候,就可以通过筛选条件对数据进行切片,过滤掉那些确定没有太大意义的部分,再重新观察分布。

新用户的多维交叉分布分析

相关文章

  • 数据分析工具箱v1.2——交叉分类

    将一个指标按单一维度进行分布统计,是探索性数据分析的一个基本、常用的方向,可以快速发现数据规律——不过可能会有遗漏...

  • 谁说菜鸟不会数据分析-读书笔记

    第一章:数据分析是神马 数据分析分类: 1、数据分析分类: 描述性数据分析:常见方法:对比分析法、平均分析法、交叉...

  • spss学习8--交叉表分析

    多个变量在不同取值情况下的数据分布情况 1.概念: 交叉表;行列交叉的分类汇总表 交叉表分析:用于分析俩个或俩个以...

  • Python数据分析与机器学习19- 逻辑回归项目实战3-交叉验

    一. 交叉验证定义 交叉验证是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(data ...

  • 数据分析基础—5.6 交叉分析法

    交叉分析法是用于分析两个变量之间的相互关系的一种基本数据分析法。 交叉分析法含义 把统计分析数据制作成二维交叉表格...

  • 转载arm汇编语言学习笔记

    XREF XREF的分类: 1.代码交叉引用,-CODE XREF2.数据交叉引用,-data xrefXREF含...

  • 谁说菜鸟不懂数据分析-读书整理

    数据分析简述: 数据分析分类及作用: 分类:描述性分析,探索性分析,验证性分析 作用:现状分析,原因分析,...

  • 数据分析

    数据分析基本方法 对比分析(横向对比纵向对比) 趋势分析 象限分析 交叉分析 数据分析框架_AARRR分析 逻辑分...

  • 数据分析基础—5.6 交叉分析法

    交叉分析法是用于分析两个变量之间的相互关系的一种基本数据分析法。 交叉分析法含义 把统计分析数据制作成二...

  • 数据分析-Excel

    1.数据分析的定义与分类 (1).定义 (2).分类 描述性数据分析(初级数据分析:常见分析方法)对比分析法平均分...

网友评论

    本文标题:数据分析工具箱v1.2——交叉分类

    本文链接:https://www.haomeiwen.com/subject/zsrkjctx.html