《数据可视化之美》[美]Julie Steele、Noah Iliinsky(编)祝洪凯、李妹芳(译)机械工业出版社 2011年6月第1版 ISBN 978-7-111-33796-6 Beautiful Visualization / Julie Steele & Noah Iliinsky / 2010 O'Reilly精品图书系列
预期的目标:《伦敦地铁图》——“我们的目标是,提供一张伦敦地铁系统的视图,使得乘客可以轻松的选定乘车路线。”《元素周期表》——“我们的目标是,以一种可以很清晰地显示元素的物理特征并且可以据此对它们的行为做出预测的方式来显示元素。”(p13)
创建信息可视化包括以下7个阶段:获取、解析、过滤、挖掘、展现、提炼和交互。(p19)
绝大部分可视化都有一个目标,需要把数据置于某种故事情节中以有意义的方式进行展示。问题+可视化数据+场景=故事(p20)
一旦获取到了原始数据,就需要考虑数据的解析、组织、分组或者修改,以便可以从中识别出模式或者抽取出想要描绘的特定信息,这个过程通常就是众所周知的“数据再加工”(data munging)过程。(p23-24)
可视化展现方式:尺寸、色彩、位置、网络、时间。(p24-28)
对可视化内在的问题提出质疑将是发现规律的有效驱动,因此不要怯于在早期提出这些问题——而是要避免在最后的可视化中回答这些问题。(p31)
国家的可视化展现最可靠的方式是搜索以“.svg”为后缀的文件中的国家名字。SVG表示可缩放矢量图形(Scalable Vector Graphics),是由W3C协会倡议的开放标准的矢量图形。它是一种流行的矢量图像标准,尤其适用于免费的图像和地图,很多矢量控制应用程序都支持它。(p35)
维基共享资源(http://commons.wikimedia.org/)包含很多免费、高质量的矢量地图。有些难以发现的国家也可以从维基共享资源的世界矢量地图中抽取出来。这些文件可以通过图形设计软件Adobe Illustrator或者矢量图形编辑软件Inkscape进行编辑生成矢量文件,或者作为GIMP的比特图。(p36)
Wordle本身有意不支持CJKV字体类型,包括中文、日文、韩文和越南文,因为字体数据非常大,需要花费用户很长时间下载。此外,确定表意符号的字体边界需要非常复杂的机器学习算法和大量的运行时数据结构,Wordle无法提供这些。(p50)
对易读性至关重要的应用,Wordle提供了Ray Larabie的Expressway字体,该字体被美国运输部作为标准字母。(p57)
单词云可以被用于:总结和修饰商务演示和博士论文,插图说明新的文章和电视新闻报道,提炼和抽象受害人个人痛苦的回忆。(p59)
数据可视化的典型挑战是把高维度的数据投影到低维度的画布上。通常来说,我们永远都不要把二者颠倒(对数据可视化生成比已有更多的维度)。(p62)
切尔诺夫脸谱图(Chernoff faces)是一种多元统计学表示方式,它以多元数据显示人脸。通过形状、大小、位置、方向各个变量来表示眼睛、耳朵、嘴巴、鼻子等。其思想是人们可以很容易识别人脸的微小变化。(p63)
给现有图表增加一个维度的方法:①使用多种绘图符号(“可耻的失败”),②在画布上使用小的多重图形,③给数据增添色彩。(p63-64)[2017-08-28读完]《数据可视化之美》读书摘录 [2017-08-28读完]《数据可视化之美》读书摘录 [2017-08-28读完]《数据可视化之美》读书摘录
如果使用色彩对数据编码,数据的维度最好不要超过两个。(p66)
“飞行模式”(Flight Patterns)是在2005年开始启动的一个项目,它是对美国和加拿大的民航运输进行可视化(http://www.aaronkoblin.com/work/flightpatterns/)。(p90)
不同机场之间的飞行路线通常是聚集在一起,而只是在飞机准备降落或起飞的阶段,其飞行路线才会趋于分散。(p91)
Processing是特别适合于数据可视化的一种编程语言。(p93)
社区网络分析(SNA)是当前流行的一门社会科学,它可以用于市场营销、改进组织有效性、构建经济网络、追踪疾病爆发、揭露欺骗和腐败、分析在线社交网络中发现的模式以及干扰恐怖分子的网络。(p103)
SNA软件的网络组织方式是使用改进的图形布局算法来确定两个人之间的连接关系:网络中一个节点的位置是通过它的连接以及这些连接的连接决定的。连接度较高的节点位于布局图的中心,而连接度较低的节点则在图形的四周。(p105)
Amazon的数据(购买该商品的顾客还购买了……)表明我们可以对不同分组的政治选择和行为有更深刻的理解,而不需要知道属于这些分组的任何个人信息。不需要透露任何私人数据,我们就能够理解基于书籍购买的大规模的政治模式。更让人惊奇的是,这些数据和用于显示它所创建的简单的可视化,与代价很高的全国范围的选民调查一致。(p120)
GraphViz(http://www.graphviz.org/)是一个开源的图形可视化包,可用于设计具有节点和边的网络图。(p127)
可视化的一个问题是它们通常涉及从高维数据集降维成二维或三维数据集,在降维过程中可能会丢失信息,因此难以确定看起来很有意思的分组方式是真实地反映了关于数据集的一些有趣的方面,或者仅仅是该过程中产生的一个假象。(p148)
鸟瞰图的制作方法:首先使用Perl或其他语言来解析数据,计算相似性,然后把这些相似性结果传给DrL软件(http://www.cs.sandia.gov/~smartin/software.html),使用之前提到的图形方法,把这些相似性转换成每个节点坐标。DrL的优势在于它可以递归执行,因此坐标可以反映更高层次的组织,另一个可以取代DrL的很好的软件是GraphViz。完成以上处理后,我们继续使用Perl把坐标和其它额外信息进行归并,如节点的尺寸、颜色和标签,最后把处理完成的数据集传递给商业绘图库yFiles。yFiles对标签进行布局,把整个可视化渲染成一个png文件,是一个非常有用的包。你也可以直接使用Perl创建EPS文件,其代价是没有对标签进行布局。(p153-154)
Mark Lombardi可能堪称完美的网络布局算法,他努力绘制节点没有重叠、边很少交叉,而且连接平滑且弯曲的网络。以计算方式创建的社交网络的可视化很少能够达到这种程度的优雅和感性。使用SocialAction软件工具(http://www.cs.umd.edu/hcil/socialaction)可用于探索这些问题。(p155,158)
Shneiderman的可视化信息搜索咒语——“总体概览为先,缩放和过滤次之,最后按需提供细节”——可以作为社交网络分析师组织复杂任务的一个指南。(p160)
实际上只有3种可视化技术可以真正在分类数据上工作良好,树形图(treemap)、镶嵌图(mosaic plot)和并行集(parallel set)。其原因是在数据的离散领域和大多数可视化变量的连续领域(位置、长度等)之间存在不匹配。(p188)
将表变成树的并行集工具ParSet:①Bendix, Fabian, Robert Kosara, and Helwig Hauser. 2005. "Parallel Sets: Visual analysis of categorical data." In Processings of the IEEE Symposium on Information Visualization, 133-140. Los Alamitos, CA: IEEE Press. ②Kosara, Robert, Fabian Bendix, and Helwig Hauser. 2006. "Parallel Sets: Interactive exploration and visual analysis of categorical data." IEEE Transactions on Visualization and Computer Graphics 12, no. 4: 558-568.(p198)
使用制图应用程序Cytoscape——一个起源于生物网络科学社区的开源应用程序,可以很容易地生成节点-连接图。(p222)
AlloSphere是世界上最大的兼具科学性和艺术性的设备,也可以称作实验室。其功能涵盖“沉浸式可视化”(immersive visualization)、“可听化”(sonification)和多模式数据管理。(p279)
动画原则:本质上来看,任何动画都是向观众展示一系列快速、连续的图像。观众对这些图像进行组装,试着把各个图像上发生的事情贯通起来。感知系统会注意到帧之间的变化,因此动画可以被理解为不同帧之间的一系列视觉变化。当变化很少时,可以很容易理解发生了什么变化,而且观众也可以很容易追踪这些变化。但当有大量的变化时,理解就会变得很复杂。(p316)
感知研究人员已经证实了观众难以对超过4个或5个独立运动的对象进行追踪——他们将放弃追踪所有的,转而追踪几个物体,把其他的作为“噪音”看待。(p316-317)
“因果性觉知”(perception of causality):人们很容易相信动画中的运动是有目的的:一个点是在追逐另一个点(而不是认为一个点在沿着相同的轨迹在其后面运动);或者是一个球击中了另一个球(而不是“这个点在位置A停下,而另一个点从位置A运动到位置B”)等。(p317)
利用GapMinder(http://www.gapminder.org)制作动画散点图。(p319)[2017-08-28读完]《数据可视化之美》读书摘录
两条通用的动画指导原则:可视化应该保持一致性和易理解性。(p332)[2017-08-28读完]《数据可视化之美》读书摘录
本书目录:第1章 论美(Noah Iliinsky),第2章 曾经的堆叠时间序列(Matthias Shapiro),第3章 Wordle(Jonathan Feinberg),第4章 色彩:数据可视化的“灰姑娘”(Michael Driscoll),第5章 信息映射:重新设计纽约地铁图(Eddie Jabbour),第6章 飞行模式:深入探索(Aaron Koblin & Valdean Klump),第7章 你的选择揭示你是谁:社会模式的挖掘和可视化(Valdis Krebs),第8章 美国参议院社交图(1991~2009)的可视化(Andrew Odewahn),第9章 鸟瞰图:搜索和发现(Todd Holloway),第10章 从社交网络可视化的混杂之中寻找美丽的感悟(Adam Perer),第11章 美丽的历史:对维基百科可视化(Martin Wattenberg & Fernanda Viégas),第12章 把表转换成树:把并行集发展成意义深远的项目(Robert Kosara),第13章 “X by Y”的设计:奥地利电子艺术节档案的信息美学探索(Moritz Stefaner),第14章 矩阵探秘(Maximilian Schich),第15章 1994年:基于《纽约时报》上的文章搜索API的数据探索(Jer Thorp),第16章 《纽约时报》的一天(Michael Young & Nick Bilton),第17章 深入揭秘复杂系统(Lance Putnam, Graham Wakefield, Haru Ji, Basak Alper, Dennis Adderton & JoAnn Kuchera-Morin),第18章 解剖可视化:真正的黄金标准(Anders Persson),第19章 动画可视化:机遇和缺点(Danyel Fisher),第20章 带索引的可视化(Jessica Hagy)
网友评论