最近发现一个宝藏app,Tableau,都叫它数据分析的神器,编程小白做数据分析的福音,大学甚至有相关课程。这篇文章并不想吹捧它,也不想拿它和其它(比如R语言)做比较,各有优缺点。之所以称Tableau为宝藏app,是因为它的帮助教程看完都很有收获,我通过它的帮助文档学习了两个重要的议题:
-
了解数据的属性来选择合适的图来可视化
-
了解数据的类型来选择最佳的叙事方式
本文涉及内容为议题二,原文请见讲述精彩故事的最佳实践。
在议题一里面,我们根据数据的属性选择了相应合适的图表来呈现,而一个项目里,肯定不止一份数据,一张表里也可以画出不同的图表。那么如何组织这些图表,讲一个完整的数据故事呢?
根据故事的类型(号召?提案?叙事?论证?),听众(是否赶时间?)等来描绘我们的故事。事实上,我一直很迷惑tableau这个功能,好在它给出了各种示例。这里也按照表格里罗列的七种故事类型进行解析。表格里的示意图很不错,但是具体示例有的不是很典型。
随着时间而改变
其作用:使用年表来说明一个趋势。
开头讨论:为什么会发生这种情况,为什么会一直发生?我们能做什么来阻止或促使这种情况发生?
示例:武器库的伤害危机
我怀疑Tableau的网页是机器翻译的(狗头)。实际上标题是“Arsenal's Injury Crisis”,讲的是足球俱乐部阿森纳的足球运动员伤病危机,探索为何在阿森纳经理阿瑟纳·温格手下,会有如此之多的球员饱受伤病困扰。。使用的数据是2002-2012年间,英国足球俱乐部的球员受伤情况调查表,变量包括:受伤时间(具体到月,赛季),受伤人员(具体到姓名,角色),俱乐部名称(分析需要一些背景知识),受伤部位
-
首先对于累计受伤人次~时间作出折线图,groupby 不同俱乐部。发现阿森纳比别的球队都高,标记处拐点在于酋长球场open。这里属于一开始就抛出结论。
-
为了说明阿森纳伤病率远远高出其他俱乐部,还做了一个赛季伤病数排名~时间的折线图,同样groupby 俱乐部名,进一步说明阿森纳“异常高于他人”。这两张PPT使用的都是随时间变化的折线图,groupby分组变量。
-
正式于其它俱乐部进行比较就是用了“偏差”里的图表类型,作出受伤频率条形图。
-
利用条形图探索伤病部位主要在哪里,也就是“排名”类型的数据常用的呈现方式。由于脚部的伤病最多,这一页提供了指向“足球场”这个结论的线索/证据。事实上,图表上脚踝、脚、脚趾合并在了一起,排名第一,不知道原始数据里面他们三个是不是合并在一起。而脚跟为什么不合并进去?感觉是个trick
-
通过对第一页的图进行缩放呈现,再次抛出论点。对于受伤人次~时间作出折线图的y轴的0点设置在酋长球场开业出。不知道x轴不从0点开始是数据导致的,还是为了美观。
-
呈现了每个球员的伤病情况。事实上,我觉得这种密密麻麻的条形图非常不友好。示例放在这里大概是想展示Tableau的互动功能,右上角按照次还是频率排序,这点挺不错的。
-
用热图展示了每年(row)每月(col)的伤病数,数量映射到颜色上。把对手俱乐部的放在旁边进行比较。这里应该想展示的酷炫功能除了selectInput之外,还有热图里数字的颜色。方格里数字的颜色会根据方格的颜色来调整成黑色或者白色,避免视觉冲突。这里非常美观。
-
后面两页没啥可说的。
心得
这种随着时间变化的数据,首当其冲是制作以时间为自变量(x)的折线图,在变化的拐点处寻找差异,这里的拐点可以是不同组的分离点,也可以是斜率的陡然变化的地方。
找到差异以后可以在差异出现的时间范围内再做一张图,相当于对第一幅的局部放大。
最后,找差异的灵感,也可能在数据表之外了。比如示例中球队换将,换训练场,不是球迷谁知道啊……
下钻调查
其作用:设置上下文,以便您的受众更好地了解特定类别中发生的事件。
开头讨论:为什么这个人、地点或事件与众不同?如何比较这个人、地点或事件的表现?
继续狗头鄙视机器人翻译。。。。。示例并没有体现出“下钻调查”的概念,所以不展开了。
第一个示例里分析的事一个基于人群手机使用习惯的泄漏数据,由于带有地理坐标,所以很大篇幅是对于使用习惯进行了地域的分析。数据展示时的层层下钻体现在分析区域的缩小。配合Tableau的互动缩放功能使用效果确实很不错。
第二个示例讲的是对《辛普森一家》这个动画片的细节分析,例如《辛普森一家》与其他电视剧相比有何优缺点,以及观众最喜欢哪几集。里面用了大量的互动功能,除了赞叹,好像也没有什么能够学到的。
缩小
其作用:描述您的受众关注的内容与大局的关系。
开头的讨论:您关注的内容与大局相比会是怎样?一个方面对大局有什么影响?
示例:温哥华骑自行车者
如果“下钻调查”有“因果关系”的内涵的话,“缩小”可能就更多只是“局部与整体”的关系呈现。示例讲的是温哥华骑行者的不同习惯特征,说实话,我觉得不典型。我想了一个,大学专业介绍,可能就挺适合的。
对比
其作用:表明两个或多个主题的差异。
开头讨论:这些项为什么会不同?我们如何能使 A 表现得像 B?我们应该关注哪个方面,哪个方面做得很好?
示例:埃及的金字塔
事实上对比无处不在,阿森纳的故事里,就存在不少对比。这个示例太难打开了,略。
下面三个也是这个原因,不怎么能打开链接。就此烂尾吧。果然又是网络阻碍了我的进步。
十字路口
其作用:当一种类别超过另一种类别时突出重要的转变。
开头讨论:是什么原因导致这些转变?这些转变是好还是坏?这些转变如何影响我们计划的其他方面?
示例:我们与他们
因素
其作用:通过将主题分成不同类型或类别来解释主题。
开头讨论:是否存在我们应该更多关注的一个特定类别?这些项对我们关注的指标有多大的影响?
示例:行星地球
离群值
其作用:显示异常或事件的特别异常之处。
开头讨论:为什么此项不同?
示例:SOS 儿童村
网友评论