简单概括每一节的表达核心,注重整本书的结构
第一章 用数据讲故事
1.1 不只是数字
可视化在新闻、艺术性、娱乐性、引入注目方面的例子。让数据得以被分析、传达情感等。
1.2 我们要寻求什么
关注处理数据的模式、数据间的相互关系以及异常数据。
1.3 设计
设计图表时的注意点:
- 解释性的内容:标签、说明文字、图解等
- 标注坐标轴
- 正确的几何图形
- 提供数据来源
- 考虑需求场景
1.4 小结
以实际问题为出发点,保证数据正确性,把握图表的设计意图和受众群体。
第二章 处理数据
2.1 收集数据
介绍了几个数据来源:
- 他人提供
- 搜索引擎
- 专业网站等
提供了 python 实现网页爬虫的示例。
2.2 设置数据的格式
数据的三种格式:
- 带分隔符的文本
- JSON
- XML
处理数据格式的几种工具。
用代码处理数据格式的示例。
2.3 小结
如何获取数据并处理数据格式。
第三章 选择可视化工具
3.1 开箱即用的可视化工具
excel、google doc、tableau 等
3.2 编程工具
python、processing、javascript、R 等
3.3 绘图软件
Adobe Illustrator、Inkscape 等
3.4 地图绘制工具
google 地图、polymaps、R 等
3.5 衡量各种选项
按需
3.6 小结
可视化工具介绍
第四章 有关时间趋势的可视化
4.1 在时间中寻求什么
趋势性、全局和细节
4.2 时间中的离散点
柱形图:
- 可以表现离散时间
- 柱形高度是其体现数值的视觉线索,柱形的宽度和间隔不代表任何信息
- 柱形图的数值轴必须从 0 开始,否则难以从视觉上比较柱形的高度
- 示例:历年热狗大胃王比赛成绩
堆叠柱形图:
- 柱形高度代表总数值,内部柱形高度代表子类别的数值
- 示例:历年热狗大胃王比赛前三甲成绩
散点图:
- 可以表示离散时间
- 用点的位置作为数值的视觉线索,数值轴不必从 0 开始
- 示例:网站订阅者数量
4.3 延续性数据
延续性数据源也是离散数据集,表现的是不断变化的现象。
折线图:
- 缺陷是必须要表现两点间的稳定变化
阶梯图:
- 适用于跃变的情况
- 示例:美国邮费变化情况
拟合线:
- 帮助在杂乱的数据中表现出趋势
- 常用的有局部加权散点平滑法(LOESS)
- 示例:历年美国失业率
4.4 小结
- 直观体现出事物的变化趋势
- 引导某个时间段变化的原因
- 引导关注值得注意的部分
第五章 有关比例的可视化
不同于时间序列数据中以时间为分组依据,在比例数据中以样本空间作为分组。
5.1 在比例中寻求什么
比例的分配。
5.2 整体中的部分
既希望呈现各部分和其他部分的相对关系,又希望保持整体上的感觉。
饼图:
- 不精确,角度不易衡量
- 不要分成太多块
- 颜色也可以作为视觉线索,深浅代表重点的强弱
- 示例:用户对数据各相关领域感兴趣的情况
面包圈图:
- 只能通过弧形的长度来衡量数值
- 中间可以放标签或其他内容
- 也不适合较多分类
- 示例:用户对数据各相关领域感兴趣的情况
堆叠柱形图:
- 多饼图与堆叠柱形图的案例:与角度相比,人们对柱形更敏感
- 示例:奥巴马在各问题上的支持率
板块层级图(treemap):
- 基于面积的可视化方式,通过每一个板块的尺寸大小度量
- 适合树状结构的数据(如磁盘使用情况)
- 示例:网站上各文章的受欢迎程度
5.3 带时间属性的比例
堆叠面积图:
- 堆叠总高度表示某一时刻总量,内部堆叠高度表示某一时刻某一类别的数值
- 水平轴表示时间,多个时间序列图表堆叠
- 不适用于分类多的情况
- 每一层的变化趋势难以识别
- 示例:历年各年龄段人群占总人口的比例、历年消费开支的比例
时间序列图:
- 数值轴为百分比
- 解决了堆叠面积图难以识别每一层的变化的问题
- 但失去了整体性和比例分布信息
- 示例:历年各年龄段人群占总人口的比例
5.4 小结
比例分布数据主要特点在于每个单独的数值有意义,各部分相加的子集和总和也有意义,可视化需要体现出这些方面。
- 少量数值:饼图、面包圈图
- 多个类别的多个数值:堆叠柱形图(非多个饼图)
- 时间信息:堆叠面积图、时间序列图
第六章 有关关系的可视化
如何通过可视化的方法挖掘出并强调这些关系
6.1 在关系中寻求什么
关联性、因果性、分布、交叠等,通过展现的图表发现关系和意义
6.2 关联性
关联性和因果性的区别,关联性可以帮助我们根据某一已知指标预测另一指标
散点图:
- x 轴不仅可以是时间
- (x, y) 坐标,拟合曲线
- 正相关、负相关、不相关
- 示例:美国各州谋杀率和入市盗窃率的关系
散点图矩阵:
- 绘制出每一种可能的配对,以尽可能的发现关系
- 削弱杂乱感,强调重要内容
- 示例:7 个类型的犯罪率之间的关系
气泡图:
- 三个维度:x、y、气泡面积
- 示例:美国各州谋杀率和入市盗窃率的关系,加上各州人口作为第三维度
6.3 分布
茎叶图:
- 一种古老的表示分布的图表
- 基础性数字位于左侧(茎),相关数字依次排列在右侧(叶)
- 示例:世界各国出生率分布图
直方图:
- 柱形的高度表示频率,宽度表现数值轴上某个值域
- 水平轴和垂直轴都是连续的
- 合适的分段数量
- 示例:世界各国出生率分布图
密度图:
- 用曲线代替柱形,曲线下面积为 1
- 示例:世界各国出生率分布图
6.4 对照和比较
直方图矩阵:
- 示例:过去几十年出生率的分布变化
- 示例:过去几年家庭电视尺寸的分布变化
系列组图:
- 将大量小图标归于一起的技巧
- 方便多个群组和分类之间及其内部比较
- 示例:三部曲系列影片的评价趋势
6.5 小结
如何在多个变量中找寻关联性
第七章 发现差异
如何从全体中找出满足多种标准的集合,以及利用常识找出异常值
7.1 在差异中寻求什么
每一个变量间的差异,所有变量间的差异,相似性和背后的关联性
7.2 在多个变量间比较
先一次性观察所有数据
热点图:
- 每一列代表该对象的一个变量
- 每一行表示一个对象或观察角度
- 每一个单元格根据颜色表现数值
- 示例:NBA 球员的数据统计
脸谱图:
- 将多个变量一次性展现在人脸的各个部位上
- 依据人们对人的面部特征的敏感性
- 面部:整体表现某个对象
- 特征:头发高度、眼镜大小、嘴角曲线等表现代表的数值
- 相似的脸 -> 相似的数据特征
- 提供充分的图表描述
- 示例:NBA 球员的数据统计
星图(雷达图、蜘蛛图):
- 通过形状来表现多变量数据的特征
- 到中心的长度代表一个变量的值
- 链接各端点以方便表现变量之间的关系
- 星图矩阵
- 示例:美国各州犯罪率
- 变体:
- 所有数据限制在圆形上半部分
- 南丁格尔图(极坐标区图):各扇形的长度、颜色
平行坐标图:
- 描述群组或各变量之间的关系
- 各个变量是一条轴,平行放置
- 每个对象是一条线,可在多个变量间寻找共同的变化趋势
- 示例:美国各州 SAT 得分
7.3 减少维度
多维量法,根据某些标准将对象划分为不同的群集
- 将一个对象的各项指标转换为距离,分布到 x - y 坐标轴上
- 相似的对象距离近,形成各个集群
- “基于模型聚类”
7.4 寻找异常值
图表 + 常识 + 数据的上下文
7.5 小结
入手点:一次性展现所有数据,将范围缩小到令人感兴趣的点
第八章 有关空间关系的可视化
8.1 在空间中寻求什么
x、y、时间维度
8.2 具体位置
带经纬度点的地图:
- 示例:好市多店铺在美国的分布
带有线的地图:
- 示例:位置追踪轨迹、与世界各地连接线
带有气泡的地图:
- 气泡的面积 -> 数值
- 示例:全球为成年人生育率
8.3 地区
等值区域图:
- 各个地区根据颜色标尺着色
- 示例:美国各县的失业率
- 示例:各国获得安全饮用水源的城市居民百分比
8.4 跨越空间和时间
加时间维度的系列组图:
- 示例:2004 - 2006 全美各县失业率的变化
表现差额的地图:
- 示例:2005 - 2009 全球城市人口的变化
动画地图:
- 直观,有机展现变化
- 示例:1962 - 2010 沃尔玛的增长情况
8.5 小结
- 处理维度
- 直观性、更丰富的形式
- 处理空间数据时有很多的可能性
第九章 有目的的设计
降低理解门槛
9.1 让自己作好准备
- 了解数据,上下文背景
9.2 让读者作好准备
- 假设读者都是盲目的,不要假设读者可以发现所有细节
- 解释、描述
9.3 视觉提示
- 颜色
- 几何形状
- 可视化就是将数据(数字、文本、类别等)转换为视觉元素,选择合适的视觉元素
9.4 好的可视化
- 设计图表的目的
- 想将什么样的故事
- 打算跟谁讲
9.5 小结
数据 + 可视化方法
网友评论