《鲜活的数据》- 阅读索引

作者: TWLESVCNZ | 来源:发表于2018-06-16 19:57 被阅读52次

简单概括每一节的表达核心，注重整本书的结构

第一章用数据讲故事

1.1 不只是数字

可视化在新闻、艺术性、娱乐性、引入注目方面的例子。让数据得以被分析、传达情感等。

1.2 我们要寻求什么

关注处理数据的模式、数据间的相互关系以及异常数据。

1.3 设计

设计图表时的注意点：

解释性的内容：标签、说明文字、图解等
标注坐标轴
正确的几何图形
提供数据来源
考虑需求场景

1.4 小结

以实际问题为出发点，保证数据正确性，把握图表的设计意图和受众群体。

第二章处理数据

2.1 收集数据

介绍了几个数据来源：

他人提供
搜索引擎
专业网站等

提供了 python 实现网页爬虫的示例。

2.2 设置数据的格式

数据的三种格式：

带分隔符的文本
JSON
XML

处理数据格式的几种工具。

用代码处理数据格式的示例。

2.3 小结

如何获取数据并处理数据格式。

第三章选择可视化工具

3.1 开箱即用的可视化工具

excel、google doc、tableau 等

3.2 编程工具

python、processing、javascript、R 等

3.3 绘图软件

Adobe Illustrator、Inkscape 等

3.4 地图绘制工具

google 地图、polymaps、R 等

3.5 衡量各种选项

按需

3.6 小结

可视化工具介绍

第四章有关时间趋势的可视化

4.1 在时间中寻求什么

趋势性、全局和细节

4.2 时间中的离散点

柱形图：

可以表现离散时间
柱形高度是其体现数值的视觉线索，柱形的宽度和间隔不代表任何信息
柱形图的数值轴必须从 0 开始，否则难以从视觉上比较柱形的高度
示例：历年热狗大胃王比赛成绩

堆叠柱形图：

柱形高度代表总数值，内部柱形高度代表子类别的数值
示例：历年热狗大胃王比赛前三甲成绩

散点图：

可以表示离散时间
用点的位置作为数值的视觉线索，数值轴不必从 0 开始
示例：网站订阅者数量

4.3 延续性数据

延续性数据源也是离散数据集，表现的是不断变化的现象。

折线图：

缺陷是必须要表现两点间的稳定变化

阶梯图：

适用于跃变的情况
示例：美国邮费变化情况

拟合线：

帮助在杂乱的数据中表现出趋势
常用的有局部加权散点平滑法（LOESS）
示例：历年美国失业率

4.4 小结

直观体现出事物的变化趋势
引导某个时间段变化的原因
引导关注值得注意的部分

第五章有关比例的可视化

不同于时间序列数据中以时间为分组依据，在比例数据中以样本空间作为分组。

5.1 在比例中寻求什么

比例的分配。

5.2 整体中的部分

既希望呈现各部分和其他部分的相对关系，又希望保持整体上的感觉。

饼图：

不精确，角度不易衡量
不要分成太多块
颜色也可以作为视觉线索，深浅代表重点的强弱
示例：用户对数据各相关领域感兴趣的情况

面包圈图：

只能通过弧形的长度来衡量数值
中间可以放标签或其他内容
也不适合较多分类
示例：用户对数据各相关领域感兴趣的情况

堆叠柱形图：

多饼图与堆叠柱形图的案例：与角度相比，人们对柱形更敏感
示例：奥巴马在各问题上的支持率

板块层级图（treemap）：

基于面积的可视化方式，通过每一个板块的尺寸大小度量
适合树状结构的数据（如磁盘使用情况）
示例：网站上各文章的受欢迎程度

5.3 带时间属性的比例

堆叠面积图：

堆叠总高度表示某一时刻总量，内部堆叠高度表示某一时刻某一类别的数值
水平轴表示时间，多个时间序列图表堆叠
不适用于分类多的情况
每一层的变化趋势难以识别
示例：历年各年龄段人群占总人口的比例、历年消费开支的比例

时间序列图：

数值轴为百分比
解决了堆叠面积图难以识别每一层的变化的问题
但失去了整体性和比例分布信息
示例：历年各年龄段人群占总人口的比例

5.4 小结

比例分布数据主要特点在于每个单独的数值有意义，各部分相加的子集和总和也有意义，可视化需要体现出这些方面。

少量数值：饼图、面包圈图
多个类别的多个数值：堆叠柱形图（非多个饼图）
时间信息：堆叠面积图、时间序列图

第六章有关关系的可视化

如何通过可视化的方法挖掘出并强调这些关系

6.1 在关系中寻求什么

关联性、因果性、分布、交叠等，通过展现的图表发现关系和意义

6.2 关联性

关联性和因果性的区别，关联性可以帮助我们根据某一已知指标预测另一指标

散点图：

x 轴不仅可以是时间
(x, y) 坐标，拟合曲线
正相关、负相关、不相关
示例：美国各州谋杀率和入市盗窃率的关系

散点图矩阵：

绘制出每一种可能的配对，以尽可能的发现关系
削弱杂乱感，强调重要内容
示例：7 个类型的犯罪率之间的关系

气泡图：

三个维度：x、y、气泡面积
示例：美国各州谋杀率和入市盗窃率的关系，加上各州人口作为第三维度

6.3 分布

茎叶图：

一种古老的表示分布的图表
基础性数字位于左侧（茎），相关数字依次排列在右侧（叶）
示例：世界各国出生率分布图

直方图：

柱形的高度表示频率，宽度表现数值轴上某个值域
水平轴和垂直轴都是连续的
合适的分段数量
示例：世界各国出生率分布图

密度图：

用曲线代替柱形，曲线下面积为 1
示例：世界各国出生率分布图

6.4 对照和比较

直方图矩阵：

示例：过去几十年出生率的分布变化
示例：过去几年家庭电视尺寸的分布变化

系列组图：

将大量小图标归于一起的技巧
方便多个群组和分类之间及其内部比较
示例：三部曲系列影片的评价趋势

6.5 小结

如何在多个变量中找寻关联性

第七章发现差异

如何从全体中找出满足多种标准的集合，以及利用常识找出异常值

7.1 在差异中寻求什么

每一个变量间的差异，所有变量间的差异，相似性和背后的关联性

7.2 在多个变量间比较

先一次性观察所有数据

热点图：

每一列代表该对象的一个变量
每一行表示一个对象或观察角度
每一个单元格根据颜色表现数值
示例：NBA 球员的数据统计

脸谱图：

将多个变量一次性展现在人脸的各个部位上
依据人们对人的面部特征的敏感性
面部：整体表现某个对象
特征：头发高度、眼镜大小、嘴角曲线等表现代表的数值
相似的脸 -> 相似的数据特征
提供充分的图表描述
示例：NBA 球员的数据统计

星图（雷达图、蜘蛛图）：

通过形状来表现多变量数据的特征
到中心的长度代表一个变量的值
链接各端点以方便表现变量之间的关系
星图矩阵
示例：美国各州犯罪率
变体：
- 所有数据限制在圆形上半部分
- 南丁格尔图（极坐标区图）：各扇形的长度、颜色

平行坐标图：

描述群组或各变量之间的关系
各个变量是一条轴，平行放置
每个对象是一条线，可在多个变量间寻找共同的变化趋势
示例：美国各州 SAT 得分

7.3 减少维度

多维量法，根据某些标准将对象划分为不同的群集

将一个对象的各项指标转换为距离，分布到 x - y 坐标轴上
相似的对象距离近，形成各个集群
“基于模型聚类”

7.4 寻找异常值

图表 + 常识 + 数据的上下文

7.5 小结

入手点：一次性展现所有数据，将范围缩小到令人感兴趣的点

第八章有关空间关系的可视化

8.1 在空间中寻求什么

x、y、时间维度

8.2 具体位置

带经纬度点的地图：

示例：好市多店铺在美国的分布

带有线的地图：

示例：位置追踪轨迹、与世界各地连接线

带有气泡的地图：

气泡的面积 -> 数值
示例：全球为成年人生育率

8.3 地区

等值区域图：

各个地区根据颜色标尺着色
示例：美国各县的失业率
示例：各国获得安全饮用水源的城市居民百分比

8.4 跨越空间和时间

加时间维度的系列组图：

示例：2004 - 2006 全美各县失业率的变化

表现差额的地图：

示例：2005 - 2009 全球城市人口的变化

动画地图：

直观，有机展现变化
示例：1962 - 2010 沃尔玛的增长情况

8.5 小结

处理维度
直观性、更丰富的形式
处理空间数据时有很多的可能性

第九章有目的的设计

降低理解门槛

9.1 让自己作好准备

了解数据，上下文背景

9.2 让读者作好准备

假设读者都是盲目的，不要假设读者可以发现所有细节
解释、描述

9.3 视觉提示

颜色
几何形状
可视化就是将数据（数字、文本、类别等）转换为视觉元素，选择合适的视觉元素

9.4 好的可视化

设计图表的目的
想将什么样的故事
打算跟谁讲

9.5 小结

数据 + 可视化方法

网友评论

本文标题：《鲜活的数据》- 阅读索引

本文链接：https://www.haomeiwen.com/subject/oegbeftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！