译文作者:Kay @VisIt有视没事
原文:Tufte 之前,还有 Bertin: Jacques Bertin 与图形符号系统
原作者:Karl Sluis
小编的话:
相信对可视化感兴趣的朋友对 Edward Tufte 一定不陌生,但你又是否知道在他之前,Jacques Bertin 在可视化领域也有着同样举足轻重,甚至堪称奠基人的地位?
作为「自动化可视化(automated visualization)」系列文章的前传,这篇介绍 Bertin 著作的文章不会具体介绍什么是自动化可视化,而是将先带您了解信息可视化的理论基础 —— 恰恰也是自动化可视化的部分基础。虽然理论略有点晦涩,但绝对值得一读。
非常喜欢原文作者简明而不失幽默的文笔,因此采用了全篇翻译的形式,希望多少能传达一点这让人时而会心一笑,时而拍案叫绝的精彩。个别几处为了便于理解,根据小编的理解进行了意译或标注,如有不准确的地方,欢迎指出,谢谢。
《图形符号学》插图Jacques Bertin 的《图形符号学》(Semiology of Graphics), 是一本关于信息图(information graphics)的出色著作,比 Edward Tufte 经典的《定量信息的视觉展示》(The Visual Display of Quantitative Information)一书还要早16年问世。
在 Tufte 提出 “chartjunk” 和 “sparklines” 之前,这位来自法国的制图师和理论家 Bertin 就已描绘出了他的“图形符号系统(Graphic Sign-System)”,一个设计和评估信息图的早期理论框架的轮廓。五十年后的今天,仅有 Tukey、Cleveland 和 Wilkinson 等少数人提出了可以同这个框架的媲美的理论,而读过的人则更少。
注[1]:chartjunk(图表垃圾)指的是图表中所有无益于读者理解图表上展示的信息,甚至会分散读者注意力或造成对数据的错误理解的,不必要的视觉元素。
注[2]:sparklines(迷你图)是一个非常小的折线图,通常会隐藏坐标轴。它以简单且高度浓缩的方式呈现某些数值的变化走势(通常随时间变化),例如温度或股价。
《图形符号学》是本难啃的、令人生畏的书,但如果说它是艰深复杂的,不妨说它也充满了理论的精华。下面就让我们来了解一下这本书提到的一些概念和亮点,因为它们在今时今日,仍为信息图的创作和评估提供了实用的框架。
图表的结构
Bertin 在1967年创作这本书时,关注的主要是平面的、静态的信息图。五十年过去了,技术的不断更新换代下,这种形式几乎没有改变——我们的工作仍然颇为局限于纸张和屏幕的二维平面。
在这个前提下,任何图表都包含了两个关键要素:视觉标记(visual marks)或 implantation 本身(例如,散点图上的点)及其在平面上的位置(点相对于 x、y 轴的位置)。
从另一个角度来看,统一所有被绘制的视觉标记的思想、概念或主题——是一个不变量(invariant)。 Bertin 将构成这个不变量的可变特征称为组成部分(components)。 然后,这些组成部分本身又由称为元素(element)的不同原子部分组成。
注[3]:implantation 即视觉标记的形式,可以是点、线或面;由于只有 Bertin 使用这个叫法,且没有找到很合适的中文翻译,因此这个词不作翻译。
让我们以下面这个相当不错的,关于美国枪支销售的图表为例:
《奥巴马呼吁新的限制后,枪支销售飙升》(来自纽约时报)
其中,不变量(主题)是“自2000年以来美国的枪支销售估计量”,这也是图表的主体内容。它的组成部分包括了销售量的变化和时间的变化。其元素是每个月的枪支销售估计量。这里不妨留意一下,不变量与图表标题(title)之间的关系,组成部分与坐标轴以及图表的平面空间(planar space)之间的关系,以及元素与视觉标记(visual implantations / marks)之间的关系。
不变量(主题)、组成部分与元素的示意图组织层次(Levels of Organization)
组成部分(component)本身可以分为以下三种类型:
- 定量的(Quantitative):该组成部分由彼此之间具有恒定数值比的元素组成,比如一个分钟数的序列。
- 有序的(Ordered):该组成部分由具有自然(顺序)序列的元素组成,如冷-暖-热(温度),或白-灰-黑(灰度)。
- 定性的(Qualitative):该组成部分由相关(associated)和差异化(differentiated)的组构成,但组与组之间没有内在的顺序,例如美国50个州的列表。这样有什么好处呢?由于定性的组成部分(qualitative components)没有内在顺序,因此可以对它们进行任意重新排序以挖掘和揭示数据中潜藏的规律。
注[4]:component(组成部分)可以理解为对应于数据中的字段/数据项
注[5]:数据分类有多种定义方式,命名也不止一种,Quantitative 类似于 Numeric;Ordered 类似于 Ordinal;Qualitative 类似于 Categorical 或 Nominal。
Bertin 认为,了解图表中各组成部分的性质,有助于引导人们进行图表的设计和图表形式的选择。于是,当他设计一个用于生成图形的系统(system for sign-making)时,Bertin 为具有不同组成部分的图表提出的设计建议是近乎严苛的——例如,具有两个组成部分的图表的基本形式(就有下图中的这么多种):
组成部分(component)的分类如何构建一个图表
前面我们已经明确过了,平面空间是一个图表的基础。在这个基础空间内,读者大可以抱有某些预期——例如,图表中的每个标记(mark)都是有意义的,而同时,没有标记的位置(即空白处)也是有意义的。除了 implantation 的 x-y 位置,Bertin 还介绍了六种我们可以应用于构造这个 implantation 的视觉变量(visual variables):分别是大小(size),明度(value),图案(pattern),颜色(color),方向(orientation)和形状(shape)。
看!一个关于图表的图表~在这个图中以及其他地方,Bertin 强调了关于将信息映射到图表的一些重要概念:
(小编:划重点!!这部分可以说非常精华了)
- 大小的相对关系是最广泛有效,且易于感知的视觉变量,无论要可视化的信息是什么都可以用。
- 尺寸和平面位置(即 x-y 位置)是唯一可以准确传达定量(quantitative)信息的视觉变量。
- 对于传达有序(order)信息,使用明度(从明到暗)的效果远远优于颜色(从一种颜色到另一种颜色)。
- 表现视觉关联(association)和构建视觉组时,使用颜色、方向和形状的效果最佳。
- 理想情况下,图表应取得一个空白与 5%-10% 墨水的平衡(即图表不要画得太满太杂乱)。
- 专注于图表中较少的组成部分(即一个图表中不要呈现太多个数据项)有助于读者记忆,并且便于我们自如地使用更特别的图表形式。
如何阅读图表
最后,对于一个图表是否能成功地作为有效的信息传输手段,Bertin 给出了一些评估方法的指导。让我们首先来看看阅读一个图表的三个层次:
- 外部(External):从世界上存在的所有信息中,这幅图像中显示了哪些信息?当读者的眼睛看向标题和坐标轴的名称——或者说看到图的不变量和组成部分,分别会是什么。如果我们重新看看前文中提到的枪支销售图,我们读到的是“一段时间内,在美国的枪支销售量”。
- 内部(Internal):现在我们的眼睛转向该图像本身。哪些视觉变量被用于表示该图表中的组成部分?在枪支销售图中,我们看到的是浅灰色网格上方的一条红色折线。
- 关系(Relationships):最后,我们的大脑将这些元素之间联系建立起来。这些组成部分之间是如何关联的?我能对这张图提出什么问题?我能从中得到什么信息?
相应地,Bertin 又介绍了一个图表应该回答的三个问题(显然,这是个“今天我讲三点内容......”句式的忠实拥护者)。
- 初级(Elementary):一个初级问题通常关注的是图表的某个特定元素。例如在枪支销售图表的例子中:“2013年1月售出了多少支枪?” 读者可以通过查看两个坐标轴对应位置上的标注,或者阅读折线旁的注释,得知那个月有200万支枪被售出。
- 中级(Intermediate):一个中级问题关注的是某一组元素,且通常会揭示数据的变化趋势。例如,“自奥巴马总统当选以来,枪支销售量的变化趋势是什么?”可悲的是,它正在加速发展。
- 整体(Overall):整体问题寻求的是关于图表的概括性问题的答案。例如,“自2000年以来,美国枪支销售的总体趋势是什么?”总体而言,枪支销售一直在增加,并且随着某些事件的出现,达到一次又一次的高峰。
(小编:您可能不禁要问,这三个问题有什么用呢?以下划重点!)
Bertin 认为,如果一个图表能够回答以上全部三种问题(初级,中级和整体),就可以说这个图表是高效的。要是不能完全提供这几种问题的答案的话,就只能说,这不是一个足够优秀的图表呢。高效的图表能够回答各个层次的任意问题,这会帮助读者去发现数据中潜藏的规律,从而进一步创造出我们最最渴望的成果:知识。
如果您现在是,或想要成为一名可视化设计师,即使《图形符号学》并不是圣经,也要把它的结构牢记在心。虽然我们现在有了许多创新的可视化技术,包括缩放(pinch-to-zoom)、悬停状态(hover-state)、动画、按需显示详情(details-on-demand)等等,但 Bertin 提出的理论能够为您的工作提供一个强大的框架体系:
- 一开始感到无从下手?您是否已确定图表的不变量(主题),组成部分和元素?
- 是否为读者清晰地标注了不变量(主题)和各个组成部分?
- 对于定量的组成部分和有序的组成部分,是否能让读者直观地看出它们是有序的?而对于定性的组成部分,是否对它进行了重排序,来揭示数据的规律?
- 可视化映射是否能最有效地利用六种视觉变量?
- 这个图表能否回答所有三种类型的问题?
只需要付出一点点努力,很快您就可以自如地运用《图形符号学》的“语言”。
参考文献及更多阅读
[1] 维基百科 - Jacques Bertin
[2] Edward Tufte 个人网站
[3] Semiology of Graphics: Diagrams, Networks, Maps by Jacques Bertin
[4] The Visual Display of Quantitative Information by Edward Tufte
[5] Exploratory Data Analysis by John W. Tukey
[6] Visualizing Data by William S. Cleveland
[7] The Grammar of Graphics (Statistics and Computing) by Leland Wilkinson
[8] 枪支销售信息图来源:What Happens After Calls for New Gun Restrictions? Sales Go Up
[9] Edward Tufte 的书中对 chartjunk 的介绍:Chapter 5: Chartjunk
[10] Info Vis Wiki - Chart Junk
网友评论