近些年来数据变得越来越重要了,其实这句话是有点问题的,数据一直都重要,只是由于以前的设备较少,因此采集到的数据也比较少,加之数据传播也不方便,所以数据量很少,很多问题也没能比较明显的反映出来。
现在不一样了,我们面对的是海量的数据,量变带来质变,很多问题可以通过数据关联分析找出来。当然光有数据也是不够的,如何有效的组织并呈现出来是直观重要的一环,因此就有了数据可视化,可以说它决定了我们能挖掘的数据价值的多少。
Tableau算是数据可视化比较容易入门的软件。只需简单的拖拽,就可以将各中类型的数据以多种图表形式反映出来,然后将其嵌入到文档或者网页中,即便不是专门从事数据可视化方面的工作,也有必要学习,可以通过tableau将数据组织好以后放到word或者ppt中。关键是tableau文件做好以后,可以用来处理同样类型和结构的数据,很多人在工作中会碰到数据定期更新的表格或其他数据源,比如说一季度的销售数据,tableau文件做好以后,后续只要导入相同结构和类型的二季度的数据,生成的表格和图形就会自动更新,不需要重复操作,节省很多工作量。
总之,tableau会让你的数据分析变得越来越简便,让你把经理集中在数据分析上而不是工具使用上,熟练使用以后,还可以通过它看到原来没有注意到的数据本质。
好了,那接下来我们就开始tableau的学习。
首先,打开数据源。我们选择软件自带的“sample-Superstore”数据源,这样大家都可以边看边练,实践出真知嘛。双击“sample-Superstore”标签。
打开数据源以后,我们点击左下角的“数据源”标签,先来看一下数据源的结构。
其中标注了数字“1”的是我们目前正在使用的连接。你可以点击“添加”按钮,将多个数据源放入到同一个tableau文件,也可以对相应的数据源进行“编辑”、“重命名”和“移除”。标注了数字“2”的地方是我们对数据源的使用方式:“实时数据”是保持对数据源的连接,后续数据源的更新会反映在tableau的图表中。“数据提取”等同于数据导入,导入完成之后,tableau文件就和数据源没有关系了。
在图中,我们看到"sample-superstore"有3张表,目前只加入了“order”数据表,我们也可以将其他数据表加入。下面我们就来了解一下数据表的联结方式,主要的联结方式有以下几种:
1. 内部连接
内部连接返回包括左表中的所有记录和右表中联结字段相等的记录。使用内联接来合并表时,生成的表将包含与两个表均匹配的值。
2. 左侧连接
使用左联接来合并表时,生成的表将包含左侧表中的所有值以及右侧表中的对应匹配项。
当左侧表中的值在右侧表中没有对应匹配项时,tableau将以 null 值填充。
3. 右侧连接
使用右联接来合并表时,生成的表将包含右侧表中的所有值以及左侧表中的对应匹配项。
当右侧表中的值在左侧表中没有对应匹配项时,tableau将以 null 值填充。
4. 完全外部连接
使用完全外部联接来合并表时,生成的表将包含两个表中的所有值。
当任一表中的值在另一个表中没有匹配项时,tableau将以 null 值填充。
注意到在数据表的列表下方有一个“新建并集”的按钮,新建并集的意思是指将一个表中的几行数据附加到另一个表来合并两个或更多表的另一种方法。通常情况下,需要合并的表必须具有相同的字段数,并且这些字段必须具有匹配的名称和数据类型。
完成数据连接以后,进入工作表1,tableau已经自动把数据划分为维度和度量了,当然这个也可以自行调整,将order date拖入列,sales拖入行,tableau自动给order date按照年来进行划分,而对sales进行按年份的求和处理。
注意到order date是按年统计的,在年前面有一个“+”,点击这个加号,就会按更细粒度的时间范围进行统计。或者点击“+”后面的区域,会弹出对话框,如下图所示:
注意到有两个“季度”可供选择,如果选择了上面一个“季度”,tableau会将每年的相应季度的销售额加起来,如果选择了下面一个,则只求和某一个具体年份的销售额,“月”,“周”,“日”是类似的原理。
单击其中的编辑筛选器,可以对order date的日期进行筛选。里面的选项都很好理解,不再赘述。
单击最下面的“在功能区中编辑”,会发现列中order date显示变成了“DATEPART('year', [Order Date])",可知tableau对order date的组织方式也是有相关公式的,至于这些公式如何用,我们后面再深究。
网友评论