以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍: https://serialmentor.com/dataviz/
所谓的数据可视化
我们在很多文章当中可以看到各种各样的图形。例如:散点图、条形图、热图……这些图形看似没有什么关系。但其实他们都有一个共同的特征就是,这些数据都是基于数据绘制出来的。这种把数据经过一定的转换变成图形的过程就是数据可视化。
image对于数据可视化而言,什么样的数据,绘制什么样子的图形基本都是固定的。所以我们只要了解了数据的类型。那之后就可以通过数据的分类来寻找做什么样的图。
数据类型
对于数据的分类,我们首先可以简单的根据数据是不是数字分成定量数据和定性数据。其中定量数据就是指数字,对于数字而言,还可以分成连续性变量和离散变量。而定性数据则属于文本类型的描述。这样的描述也可以都属于分类变量。但是文本描述的话可以通过有没有顺序分成有序变量和无序变量。。另外的话,我们在处理数据的时候,也经常遇到日期的特殊类型的变量以及文本这种自由的变量。
<colgroup><col span="1" width="159"><col span="1" width="160"><col span="1" width="160"><col span="1" width="160"></colgroup>
数据类型 | 例子 | 变量类型 | 描述 |
---|---|---|---|
定量数据/连续性数值 | 1.3, 5.7, 83, 1.5x10-2 | 连续性变量 | 可以是任何数值 |
定量数据/离散数值 | 1,2,3,4 | 分类变量 | 数字以离散单位表示 |
定性数据/无序分类 | 狗、猫、鱼 | 分类变量 | 没有任何的顺序,不同变量类别之间不存在比较关系。 |
定性数据/有序分类 | 不好、比较好、好 | 分类变量 | 变量和变量之间存在一定的关系。有明显的顺序 |
日期/时间 | Jan. 5 2018, 8:03am | 连续/分类 | 特定的日期或者时间 |
文本 | 这里是转折点 | 不是变量/分类变量 | 自由格式的文本。 如果需要,可以视为分类。 |
例如在下面的例子当中提供了美国四个地点的每日温度正常值(30年窗口内的平均每日温度)。 该表包含五个变量:月份,日期,位置,站点ID和温度(以华氏度为单位)。 其中月是有序的分类变量;天是离散数值;位置和站点ID是无序分类变量;温度则是连续性数值。
<colgroup><col span="1" width="127"><col span="1" width="128"><col span="1" width="128"><col span="1" width="128"><col span="1" width="128"></colgroup>
Month | 天 | Location | 站点ID | Temperature |
---|---|---|---|---|
Jan | 1 | Chicago | USW00014819 | 25.6 |
Jan | 1 | San Diego | USW00093107 | 55.2 |
Jan | 1 | Houston | USW00012918 | 53.9 |
Jan | 1 | Death Valley | USC00042319 | 51.0 |
Jan | 2 | Chicago | USW00014819 | 25.5 |
将数据值放到图形上
一个图形而言包括很多组成部分,例如图形的位置、形状、大小、颜色、线条宽度、线条类型等等等等。我们将图形当中的每一个部分叫做标度(scale)。
因此数据可视化的过程基本上分成两个步骤。
-
把想要绘制的数据和图形的不同的标度对应上,我们称这个过程为映射
-
选择合适的图形把映射表现出来。对于这个选择也是有一定原则的,这个我们在后面会慢慢讲的
例如👆美国四个地点的每日温度的例子,我们把温度值映射到Y轴;把每天的日期映射到X轴;把不同的地区映射到颜色上;最后通过线条来可视化这些结果。就有了一下的这个图形
image同样的,如果我们把不同地区映射到Y轴,然后把温度映射到颜色上,最后通过正方形来可视化结果。然后就有了👇的热图
image以上两个图形都是使用了x轴、y轴和颜色三个标度。只不过基于不同标度的映射对象不同以及可视化呈现的不同就表现出不同的图形了。
同样的,我们可以把三个标度变成多个标度。例如👇的图,就是有x、y轴的位置标度、颜色标度、大小标度和形状标度。五个标度来呈现一个图形。
image
网友评论