美文网首页@IT·互联网@产品
数据之美 · 屠夫的数据可视化三节课之一:可视化的意义

数据之美 · 屠夫的数据可视化三节课之一:可视化的意义

作者: 基业长红 | 来源:发表于2020-07-12 09:21 被阅读0次

    推测未来将要发生什么的最好方式就是记住过去曾经发生了什么。

     —— 乔治·萨维尔

    金钱永不眠,屠夫问候各位早安。

    很久没聊过数据相关的话题了。近期因为工作需要,屠夫梳理了自己在投资和工作实践中对「数据可视化」的经验和思考。

    从今天起一连3周,我将用三节课讲述“数据可视化”的话题,希望给你一些启发。

    有句话叫“一图胜千言”,对于看似复杂难懂的数据而言,尤其如是。

    数据可视化,是将数据转换成图或表进行呈现,以一种更直观的方式展现数据。

    对于经常需要用数据、做分析、理逻辑的投资者来说,数据可视化是一项利器。

    许多人看过数据可视化,但未必都明白如何做好数据可视化。

    好的可视化,可以帮助我们快速发现规律、找到原因、作出判断;

    不好的可视化,可能让人作出似是而非的结论,甚至引向大错误。

    01  「数据」可以用来做什么?

    在了解知识、技能或工具前,屠夫总喜欢先了解它的“作用”,或者说“它究竟能解决什么问题”。

    数据可视化和数据紧密相关,更具体地说是和“数据分析”紧密相关。

    所以,对于任何一个想要了解可视化的人来说,弄懂“数据”和“分析”解决了什么问题应当排在首位。

    关于“数据究竟解决什么问题”,屠夫归结为“FIVE”4个字母:

    Forecast 预测

    Insight 洞察

    Validation 验证

    Evaluation 评估

    *一年前写的《数据的F.I.V.E.用法》里的“I”是“Inspiration 启发”,如今觉得还是改为“Insight 洞察”更贴切

    预测,是数据应用的最高级形态。

    从数据获得启发,以数据验证想法,用数据评估现状,都服务于对未来的预测,最好能够“运筹帷幄之中,决胜千里之外”。

    作为最高级形态,预测又是困难的。

    理想模型在落地时往往需要层层假设,这些假设里任何一个参数的偏差,都有可能“失之毫厘谬以千里”。

    正如《关于预测,你应该明白的3个道理》所说,预测的尺度越小越【精确】,却越不容易【准确】。

    所以,在预测的精确性和准确性之间,最终取得的妥协往往是“模糊的正确”。

    洞察,是假设和灵感的来源。

    许多规律在得到严谨的数据验证之前,都是先从历史数据中获得洞察。

    我们可以从标普500和沪深300的部分历史数据中得到“宽基指数长期上涨”的想法,这就是数据的“洞察”作用,而且往往是通过数据可视化实现的。

    至于这个想法到底对不对,要用数据加以验证才知道。

    验证,是数据驱动决策的试金石。

    一些似是而非的假设和灵感可能将人带入歧途,而用数据进行验证,将大大减少这类情况发生。

    验证的方式有许多:

    在投资里,对量化策略进行“回测”,是典型的验证;

    数据分析时,构造蒙特卡洛模拟进行试验,也是验证;

    互联网行业,采用A/B测试检验策略有效性,同样是验证。

    验证的天花板是 "absence of evidence" ——

    “没有证据证明您有癌症”和“有证据证明您没有癌症”,不是一码事。感兴趣的同学可以看看《不靠预测盈利》中的详细解释。

    评估,是使用数据的基本立足点。

    数据的“评估”式用法,实际上是通过数据构造出一个框架,然后将现状与框架对比。

    可以对同一对象,横跨不同的时间段,纵向对比;

    也可以对多个对象,选取同样的时间段,横向对比。

    屠夫在《关于预测,你应该明白的3个道理》以“地图”和“六分仪”作比喻:预测就好比使用地图,而评估则是使用六分仪。

    先以六分仪测量出经纬度,确定“当前在哪儿”,使用地图时才会心中有数;先用数据进行评估,判别清楚当前的状况,你的预测才不会成为无源之水。

    数据可以用来做什么?

    屠夫的看法是:

    【数据能用于预测】预测是数据应用的圣杯,是启发、验证和评估的最终目标

    【数据能带来洞察】在历史数据的启发下,我们可以形成新的灵感或假设

    【数据能验证假设】经过验证的假设才有机会成为结论,反之只是一种猜想

    【数据能评估现状】有数据支撑的现状评估,让预测和验证成为有根之木

    02  「分析」能解决哪些问题?

    有了数据,还需要分析才能解决问题。

    “分析”究竟能解决哪些问题?

    屠夫归结为4类:是什么、为什么、怎么办和好不好。

    回答“是什么”的问题,属于描述统计。

    我们日常见到的趋势折线图、频率分布直方图,都是通过对数据特征进行描述,一般称之为描述统计。立足于历史和现状,侧重在现象和特性的展示。

    “是什么”其实并不算真正意义上的分析,许多数据看板和BI都能实现,其威力大小取决于使用数据的人。然而这并不妨碍描述统计在分析领域的地位 —— 它是许多规律、假设和猜想的源头。

    除此之外,如果回答的是“未来是什么”,这种描述又带上了预测色彩了。

    回答“为什么”的问题,属于归因分析。

    “归因分析”一般指互联网渠道运营对不同渠道产生的价值贡献进行归因。屠夫借这个词推而广之,将“寻求原因和解释”一类的“为什么”问题,都算作归因分析。

    人类是一种对“解释”有着极度狂热的动物。当我们通过描述性统计发现了一些现象时,自然而然会想要知道现象背后的根源,以便复现、加强或者削弱这类现象。

    比如屠夫写的这两篇长文,就是在尝试解答“为什么”问题:

    崩盘总在9月后?市场波动和恐慌指数

    「5月清仓9月归」有道理吗?一月效应与九月效应

    回答“怎么办”的问题,属于策略分析。

    互联网行业有不少数据分析岗位,但是 ——

    只解答“是什么”,充其量就是人肉取数工具;

    只解答“为什么”,不过是产出专题分析报告;

    只解答“好不好”,只能完成效果复盘和回测。

    上述3者听起来都不够给力,是因为你的分析,没有转化成可操作的策略,分析结果距离落地太远了。

    上面是互联网领域的例子,对于投资领域来说更好理解:

    制定投资策略,通过分析确定约束规则,决定在什么条件该做什么事,就是策略分析。

    回答“好不好”的问题,属于效果检验。

    投资领域提到的“历史回测”,和职场工作里常常需要进行“效果复盘”,都是在回答“好不好”的问题。

    仔细想想就会发现,“好不好”其实和上面提到的“验证”关联非常紧密。

    事实上,数据分析里有一部分工作就是用数据来验证效果,和预期作对比确定“好不好”。

    分析能解决哪些问题?

    屠夫的看法是:

    【回答“是什么”】描述统计,可以展示现象和特性,立足历史和现状,是规律和猜想的源头。

    【回答“为什么”】归因分析,可以深挖现象背后的原因,通过回溯根源,最终利用这些现象。

    【回答“怎么办”】策略分析,是为了将分析转化成可操作、可落地的、实实在在的策略。

    【回答“好不好”】效果检验,是为了验证落地操作后的结果是否符合预期。

    03  「可视化」的意义是什么?

    说到这里,我们不妨把「数据」和「分析」的作用,做一个连线。

    回答“是什么”问题时,需要借助数据产生「洞察」,在一定框架对比之下进行「评估」,还可以对未来的情况进行「预测」:

    回答“为什么”问题时,需要借助数据的「洞察」找规律,挖掘现象背后的原因,有条件的话最好有一定的「验证」:

    回答“怎么办”问题时,需要从「洞察」和「评估」出发,考虑可操作、可执行的应对策略,甚至会利用数据进行一定程度的「预测」:

    回答“好不好”问题时,以「验证」效果是否符合预期为目的,结合「洞察」来使用数据:

    发现了吗,洞察是被用的最多的,4大类分析问题都离不开「数据洞察」:

    事实上,缺乏可视化的情况下几乎不可能发挥出数据的「洞察」作用。

    洞察是最需要可视化辅助分析的数据用法,这个“辅助”体现在两方面:

    - 辅助分析过程的推理

    - 辅助分析结果的表达

    当我们希望深入分析、挖掘有用结论时,可视化可以帮助我们发现规律、理清思路。

    比如下面这张来自《经济学人》的网络图,把近20年美国国会的投票记录进行可视化。如果两名参议员对一项法案投出相同一票,就会以线相连。

    从图中不难看出,美国国会的党派分歧越来越严重。

    来源:经济学人

    当我们表达自己的分析结果时,可视化提供了更简单、直接、易懂的方式。

    比如下图对150万次公共跑步、散步和骑自行车活动路线进行可视化,亮度越亮表示路线越受欢迎。

    这份可视化结果的背后是枯燥难懂的数据,但是以这种形式表达,可以让使用者一眼就发现热门路线:

    来源:语雀 · 墨者学院 · 墨者修齐

    所以,对于“可视化的意义是什么”,屠夫的回答是:

    在数据的4种用法里,「洞察」可以覆盖“分析”的4大类问题

    在分析过程中,「洞察」非常需要可视化的辅助,这个辅助体现在:

    可视化可以辅助分析过程的推理

    可视化可以辅助分析结果的表达

    以上就是第一节课的内容,下周将为大家带来第二节课 —— “可视化的使用”,敬请期待!

    相关文章

      网友评论

        本文标题:数据之美 · 屠夫的数据可视化三节课之一:可视化的意义

        本文链接:https://www.haomeiwen.com/subject/eqkgcktx.html