美文网首页
《鲜活的数据》- 阅读索引

《鲜活的数据》- 阅读索引

作者: TWLESVCNZ | 来源:发表于2018-06-16 19:57 被阅读52次

    简单概括每一节的表达核心,注重整本书的结构

    第一章 用数据讲故事

    1.1 不只是数字

    可视化在新闻、艺术性、娱乐性、引入注目方面的例子。让数据得以被分析、传达情感等。

    1.2 我们要寻求什么

    关注处理数据的模式、数据间的相互关系以及异常数据。

    1.3 设计

    设计图表时的注意点:

    • 解释性的内容:标签、说明文字、图解等
    • 标注坐标轴
    • 正确的几何图形
    • 提供数据来源
    • 考虑需求场景

    1.4 小结

    以实际问题为出发点,保证数据正确性,把握图表的设计意图和受众群体。


    第二章 处理数据

    2.1 收集数据

    介绍了几个数据来源:

    • 他人提供
    • 搜索引擎
    • 专业网站等

    提供了 python 实现网页爬虫的示例。

    2.2 设置数据的格式

    数据的三种格式:

    • 带分隔符的文本
    • JSON
    • XML

    处理数据格式的几种工具。

    用代码处理数据格式的示例。

    2.3 小结

    如何获取数据并处理数据格式。


    第三章 选择可视化工具

    3.1 开箱即用的可视化工具

    excel、google doc、tableau 等

    3.2 编程工具

    python、processing、javascript、R 等

    3.3 绘图软件

    Adobe Illustrator、Inkscape 等

    3.4 地图绘制工具

    google 地图、polymaps、R 等

    3.5 衡量各种选项

    按需

    3.6 小结

    可视化工具介绍


    第四章 有关时间趋势的可视化

    4.1 在时间中寻求什么

    趋势性、全局和细节

    4.2 时间中的离散点

    柱形图:

    • 可以表现离散时间
    • 柱形高度是其体现数值的视觉线索,柱形的宽度和间隔不代表任何信息
    • 柱形图的数值轴必须从 0 开始,否则难以从视觉上比较柱形的高度
    • 示例:历年热狗大胃王比赛成绩

    堆叠柱形图:

    • 柱形高度代表总数值,内部柱形高度代表子类别的数值
    • 示例:历年热狗大胃王比赛前三甲成绩

    散点图:

    • 可以表示离散时间
    • 用点的位置作为数值的视觉线索,数值轴不必从 0 开始
    • 示例:网站订阅者数量

    4.3 延续性数据

    延续性数据源也是离散数据集,表现的是不断变化的现象。

    折线图:

    • 缺陷是必须要表现两点间的稳定变化

    阶梯图:

    • 适用于跃变的情况
    • 示例:美国邮费变化情况

    拟合线:

    • 帮助在杂乱的数据中表现出趋势
    • 常用的有局部加权散点平滑法(LOESS)
    • 示例:历年美国失业率

    4.4 小结

    • 直观体现出事物的变化趋势
    • 引导某个时间段变化的原因
    • 引导关注值得注意的部分

    第五章 有关比例的可视化

    不同于时间序列数据中以时间为分组依据,在比例数据中以样本空间作为分组。

    5.1 在比例中寻求什么

    比例的分配。

    5.2 整体中的部分

    既希望呈现各部分和其他部分的相对关系,又希望保持整体上的感觉。

    饼图:

    • 不精确,角度不易衡量
    • 不要分成太多块
    • 颜色也可以作为视觉线索,深浅代表重点的强弱
    • 示例:用户对数据各相关领域感兴趣的情况

    面包圈图:

    • 只能通过弧形的长度来衡量数值
    • 中间可以放标签或其他内容
    • 也不适合较多分类
    • 示例:用户对数据各相关领域感兴趣的情况

    堆叠柱形图:

    • 多饼图与堆叠柱形图的案例:与角度相比,人们对柱形更敏感
    • 示例:奥巴马在各问题上的支持率

    板块层级图(treemap):

    • 基于面积的可视化方式,通过每一个板块的尺寸大小度量
    • 适合树状结构的数据(如磁盘使用情况)
    • 示例:网站上各文章的受欢迎程度

    5.3 带时间属性的比例

    堆叠面积图:

    • 堆叠总高度表示某一时刻总量,内部堆叠高度表示某一时刻某一类别的数值
    • 水平轴表示时间,多个时间序列图表堆叠
    • 不适用于分类多的情况
    • 每一层的变化趋势难以识别
    • 示例:历年各年龄段人群占总人口的比例、历年消费开支的比例

    时间序列图:

    • 数值轴为百分比
    • 解决了堆叠面积图难以识别每一层的变化的问题
    • 但失去了整体性和比例分布信息
    • 示例:历年各年龄段人群占总人口的比例

    5.4 小结

    比例分布数据主要特点在于每个单独的数值有意义,各部分相加的子集和总和也有意义,可视化需要体现出这些方面。

    • 少量数值:饼图、面包圈图
    • 多个类别的多个数值:堆叠柱形图(非多个饼图)
    • 时间信息:堆叠面积图、时间序列图

    第六章 有关关系的可视化

    如何通过可视化的方法挖掘出并强调这些关系

    6.1 在关系中寻求什么

    关联性、因果性、分布、交叠等,通过展现的图表发现关系和意义

    6.2 关联性

    关联性和因果性的区别,关联性可以帮助我们根据某一已知指标预测另一指标

    散点图:

    • x 轴不仅可以是时间
    • (x, y) 坐标,拟合曲线
    • 正相关、负相关、不相关
    • 示例:美国各州谋杀率和入市盗窃率的关系

    散点图矩阵:

    • 绘制出每一种可能的配对,以尽可能的发现关系
    • 削弱杂乱感,强调重要内容
    • 示例:7 个类型的犯罪率之间的关系

    气泡图:

    • 三个维度:x、y、气泡面积
    • 示例:美国各州谋杀率和入市盗窃率的关系,加上各州人口作为第三维度

    6.3 分布

    茎叶图:

    • 一种古老的表示分布的图表
    • 基础性数字位于左侧(茎),相关数字依次排列在右侧(叶)
    • 示例:世界各国出生率分布图

    直方图:

    • 柱形的高度表示频率,宽度表现数值轴上某个值域
    • 水平轴和垂直轴都是连续的
    • 合适的分段数量
    • 示例:世界各国出生率分布图

    密度图:

    • 用曲线代替柱形,曲线下面积为 1
    • 示例:世界各国出生率分布图

    6.4 对照和比较

    直方图矩阵:

    • 示例:过去几十年出生率的分布变化
    • 示例:过去几年家庭电视尺寸的分布变化

    系列组图:

    • 将大量小图标归于一起的技巧
    • 方便多个群组和分类之间及其内部比较
    • 示例:三部曲系列影片的评价趋势

    6.5 小结

    如何在多个变量中找寻关联性


    第七章 发现差异

    如何从全体中找出满足多种标准的集合,以及利用常识找出异常值

    7.1 在差异中寻求什么

    每一个变量间的差异,所有变量间的差异,相似性和背后的关联性

    7.2 在多个变量间比较

    先一次性观察所有数据

    热点图:

    • 每一列代表该对象的一个变量
    • 每一行表示一个对象或观察角度
    • 每一个单元格根据颜色表现数值
    • 示例:NBA 球员的数据统计

    脸谱图:

    • 将多个变量一次性展现在人脸的各个部位上
    • 依据人们对人的面部特征的敏感性
    • 面部:整体表现某个对象
    • 特征:头发高度、眼镜大小、嘴角曲线等表现代表的数值
    • 相似的脸 -> 相似的数据特征
    • 提供充分的图表描述
    • 示例:NBA 球员的数据统计

    星图(雷达图、蜘蛛图):

    • 通过形状来表现多变量数据的特征
    • 到中心的长度代表一个变量的值
    • 链接各端点以方便表现变量之间的关系
    • 星图矩阵
    • 示例:美国各州犯罪率
    • 变体:
      • 所有数据限制在圆形上半部分
      • 南丁格尔图(极坐标区图):各扇形的长度、颜色

    平行坐标图:

    • 描述群组或各变量之间的关系
    • 各个变量是一条轴,平行放置
    • 每个对象是一条线,可在多个变量间寻找共同的变化趋势
    • 示例:美国各州 SAT 得分

    7.3 减少维度

    多维量法,根据某些标准将对象划分为不同的群集

    • 将一个对象的各项指标转换为距离,分布到 x - y 坐标轴上
    • 相似的对象距离近,形成各个集群
    • “基于模型聚类”

    7.4 寻找异常值

    图表 + 常识 + 数据的上下文

    7.5 小结

    入手点:一次性展现所有数据,将范围缩小到令人感兴趣的点


    第八章 有关空间关系的可视化

    8.1 在空间中寻求什么

    x、y、时间维度

    8.2 具体位置

    带经纬度点的地图:

    • 示例:好市多店铺在美国的分布

    带有线的地图:

    • 示例:位置追踪轨迹、与世界各地连接线

    带有气泡的地图:

    • 气泡的面积 -> 数值
    • 示例:全球为成年人生育率

    8.3 地区

    等值区域图:

    • 各个地区根据颜色标尺着色
    • 示例:美国各县的失业率
    • 示例:各国获得安全饮用水源的城市居民百分比

    8.4 跨越空间和时间

    加时间维度的系列组图:

    • 示例:2004 - 2006 全美各县失业率的变化

    表现差额的地图:

    • 示例:2005 - 2009 全球城市人口的变化

    动画地图:

    • 直观,有机展现变化
    • 示例:1962 - 2010 沃尔玛的增长情况

    8.5 小结

    • 处理维度
    • 直观性、更丰富的形式
    • 处理空间数据时有很多的可能性

    第九章 有目的的设计

    降低理解门槛

    9.1 让自己作好准备

    • 了解数据,上下文背景

    9.2 让读者作好准备

    • 假设读者都是盲目的,不要假设读者可以发现所有细节
    • 解释、描述

    9.3 视觉提示

    • 颜色
    • 几何形状
    • 可视化就是将数据(数字、文本、类别等)转换为视觉元素,选择合适的视觉元素

    9.4 好的可视化

    • 设计图表的目的
    • 想将什么样的故事
    • 打算跟谁讲

    9.5 小结

    数据 + 可视化方法

    相关文章

      网友评论

          本文标题:《鲜活的数据》- 阅读索引

          本文链接:https://www.haomeiwen.com/subject/oegbeftx.html