推测未来将要发生什么的最好方式就是记住过去曾经发生了什么。
—— 乔治·萨维尔
金钱永不眠,屠夫问候各位早安。
很久没聊过数据相关的话题了。近期因为工作需要,屠夫梳理了自己在投资和工作实践中对「数据可视化」的经验和思考。
从今天起一连3周,我将用三节课讲述“数据可视化”的话题,希望给你一些启发。
有句话叫“一图胜千言”,对于看似复杂难懂的数据而言,尤其如是。
数据可视化,是将数据转换成图或表进行呈现,以一种更直观的方式展现数据。
对于经常需要用数据、做分析、理逻辑的投资者来说,数据可视化是一项利器。
许多人看过数据可视化,但未必都明白如何做好数据可视化。
好的可视化,可以帮助我们快速发现规律、找到原因、作出判断;
不好的可视化,可能让人作出似是而非的结论,甚至引向大错误。
01 「数据」可以用来做什么?
在了解知识、技能或工具前,屠夫总喜欢先了解它的“作用”,或者说“它究竟能解决什么问题”。
数据可视化和数据紧密相关,更具体地说是和“数据分析”紧密相关。
所以,对于任何一个想要了解可视化的人来说,弄懂“数据”和“分析”解决了什么问题应当排在首位。
关于“数据究竟解决什么问题”,屠夫归结为“FIVE”4个字母:
Forecast 预测
Insight 洞察
Validation 验证
Evaluation 评估
*一年前写的《数据的F.I.V.E.用法》里的“I”是“Inspiration 启发”,如今觉得还是改为“Insight 洞察”更贴切
预测,是数据应用的最高级形态。
从数据获得启发,以数据验证想法,用数据评估现状,都服务于对未来的预测,最好能够“运筹帷幄之中,决胜千里之外”。
作为最高级形态,预测又是困难的。
理想模型在落地时往往需要层层假设,这些假设里任何一个参数的偏差,都有可能“失之毫厘谬以千里”。
正如《关于预测,你应该明白的3个道理》所说,预测的尺度越小越【精确】,却越不容易【准确】。
所以,在预测的精确性和准确性之间,最终取得的妥协往往是“模糊的正确”。
洞察,是假设和灵感的来源。
许多规律在得到严谨的数据验证之前,都是先从历史数据中获得洞察。
我们可以从标普500和沪深300的部分历史数据中得到“宽基指数长期上涨”的想法,这就是数据的“洞察”作用,而且往往是通过数据可视化实现的。
至于这个想法到底对不对,要用数据加以验证才知道。
验证,是数据驱动决策的试金石。
一些似是而非的假设和灵感可能将人带入歧途,而用数据进行验证,将大大减少这类情况发生。
验证的方式有许多:
在投资里,对量化策略进行“回测”,是典型的验证;
数据分析时,构造蒙特卡洛模拟进行试验,也是验证;
互联网行业,采用A/B测试检验策略有效性,同样是验证。
验证的天花板是 "absence of evidence" ——
“没有证据证明您有癌症”和“有证据证明您没有癌症”,不是一码事。感兴趣的同学可以看看《不靠预测盈利》中的详细解释。
评估,是使用数据的基本立足点。
数据的“评估”式用法,实际上是通过数据构造出一个框架,然后将现状与框架对比。
可以对同一对象,横跨不同的时间段,纵向对比;
也可以对多个对象,选取同样的时间段,横向对比。
屠夫在《关于预测,你应该明白的3个道理》以“地图”和“六分仪”作比喻:预测就好比使用地图,而评估则是使用六分仪。
先以六分仪测量出经纬度,确定“当前在哪儿”,使用地图时才会心中有数;先用数据进行评估,判别清楚当前的状况,你的预测才不会成为无源之水。
数据可以用来做什么?
屠夫的看法是:
【数据能用于预测】预测是数据应用的圣杯,是启发、验证和评估的最终目标
【数据能带来洞察】在历史数据的启发下,我们可以形成新的灵感或假设
【数据能验证假设】经过验证的假设才有机会成为结论,反之只是一种猜想
【数据能评估现状】有数据支撑的现状评估,让预测和验证成为有根之木
02 「分析」能解决哪些问题?
有了数据,还需要分析才能解决问题。
“分析”究竟能解决哪些问题?
屠夫归结为4类:是什么、为什么、怎么办和好不好。
回答“是什么”的问题,属于描述统计。
我们日常见到的趋势折线图、频率分布直方图,都是通过对数据特征进行描述,一般称之为描述统计。立足于历史和现状,侧重在现象和特性的展示。
“是什么”其实并不算真正意义上的分析,许多数据看板和BI都能实现,其威力大小取决于使用数据的人。然而这并不妨碍描述统计在分析领域的地位 —— 它是许多规律、假设和猜想的源头。
除此之外,如果回答的是“未来是什么”,这种描述又带上了预测色彩了。
回答“为什么”的问题,属于归因分析。
“归因分析”一般指互联网渠道运营对不同渠道产生的价值贡献进行归因。屠夫借这个词推而广之,将“寻求原因和解释”一类的“为什么”问题,都算作归因分析。
人类是一种对“解释”有着极度狂热的动物。当我们通过描述性统计发现了一些现象时,自然而然会想要知道现象背后的根源,以便复现、加强或者削弱这类现象。
比如屠夫写的这两篇长文,就是在尝试解答“为什么”问题:
崩盘总在9月后?市场波动和恐慌指数
「5月清仓9月归」有道理吗?一月效应与九月效应
回答“怎么办”的问题,属于策略分析。
互联网行业有不少数据分析岗位,但是 ——
只解答“是什么”,充其量就是人肉取数工具;
只解答“为什么”,不过是产出专题分析报告;
只解答“好不好”,只能完成效果复盘和回测。
上述3者听起来都不够给力,是因为你的分析,没有转化成可操作的策略,分析结果距离落地太远了。
上面是互联网领域的例子,对于投资领域来说更好理解:
制定投资策略,通过分析确定约束规则,决定在什么条件该做什么事,就是策略分析。
回答“好不好”的问题,属于效果检验。
投资领域提到的“历史回测”,和职场工作里常常需要进行“效果复盘”,都是在回答“好不好”的问题。
仔细想想就会发现,“好不好”其实和上面提到的“验证”关联非常紧密。
事实上,数据分析里有一部分工作就是用数据来验证效果,和预期作对比确定“好不好”。
分析能解决哪些问题?
屠夫的看法是:
【回答“是什么”】描述统计,可以展示现象和特性,立足历史和现状,是规律和猜想的源头。
【回答“为什么”】归因分析,可以深挖现象背后的原因,通过回溯根源,最终利用这些现象。
【回答“怎么办”】策略分析,是为了将分析转化成可操作、可落地的、实实在在的策略。
【回答“好不好”】效果检验,是为了验证落地操作后的结果是否符合预期。
03 「可视化」的意义是什么?
说到这里,我们不妨把「数据」和「分析」的作用,做一个连线。
回答“是什么”问题时,需要借助数据产生「洞察」,在一定框架对比之下进行「评估」,还可以对未来的情况进行「预测」:
回答“为什么”问题时,需要借助数据的「洞察」找规律,挖掘现象背后的原因,有条件的话最好有一定的「验证」:
回答“怎么办”问题时,需要从「洞察」和「评估」出发,考虑可操作、可执行的应对策略,甚至会利用数据进行一定程度的「预测」:
回答“好不好”问题时,以「验证」效果是否符合预期为目的,结合「洞察」来使用数据:
发现了吗,洞察是被用的最多的,4大类分析问题都离不开「数据洞察」:
事实上,缺乏可视化的情况下几乎不可能发挥出数据的「洞察」作用。
洞察是最需要可视化辅助分析的数据用法,这个“辅助”体现在两方面:
- 辅助分析过程的推理
- 辅助分析结果的表达
当我们希望深入分析、挖掘有用结论时,可视化可以帮助我们发现规律、理清思路。
比如下面这张来自《经济学人》的网络图,把近20年美国国会的投票记录进行可视化。如果两名参议员对一项法案投出相同一票,就会以线相连。
从图中不难看出,美国国会的党派分歧越来越严重。
来源:经济学人当我们表达自己的分析结果时,可视化提供了更简单、直接、易懂的方式。
比如下图对150万次公共跑步、散步和骑自行车活动路线进行可视化,亮度越亮表示路线越受欢迎。
这份可视化结果的背后是枯燥难懂的数据,但是以这种形式表达,可以让使用者一眼就发现热门路线:
来源:语雀 · 墨者学院 · 墨者修齐所以,对于“可视化的意义是什么”,屠夫的回答是:
在数据的4种用法里,「洞察」可以覆盖“分析”的4大类问题
在分析过程中,「洞察」非常需要可视化的辅助,这个辅助体现在:
可视化可以辅助分析过程的推理
可视化可以辅助分析结果的表达
以上就是第一节课的内容,下周将为大家带来第二节课 —— “可视化的使用”,敬请期待!
网友评论