有段时间,没有通过笔记的方式,梳理读书的内容了,这次重新拾起来,我想有两个原因,一个是这本书的内容价值太大,二是第一遍基本没怎么读懂,那就必须得用点硬手段,强迫加深自己对这本书的理解了。
导言:思维胜于数据
因果推断引擎示意通过将客观数据,和主观业务经验/主观认知,相结合,解决目标问题的方法论。
- 知识:推理主体过去的经验,认知、思维、经验底蕴。
- 假设:研究者在现有知识的基础上认为有必要明确表述出来的陈述。
- 因果模型:因果图模型,因果推断逻辑的外在表现形式,通过一种更简洁、清晰的方式,帮助人们更好认知因素之间的因果关系。
- 可验证的蕴涵,将通过主观经验建立的图结构,转化为数据语音,"因素D和L相对独立,不相关",对比真实数据结论,验证假设无误。
- 我们提交的问题,例:P(L|do(D))
- 因果推断的结果,注意如果前置因果图模型里因素不够,可能这个结果是无法顺利得到的
我们平常工作中说的业务漏斗、业务模型,本质就是因果图,对产生一份业务结果需要经过关键环节的抽象。
因果关系之梯
因果关系的三个层级
- 第一层级,是观察能力,发现环境中规律的能力。
买啤酒的顾客也爱买尿布,这是规则。
- 第二层级,是行动能力,预测对环境刻意改变的后果。
- 第三层级,是想象能力,反事实的想象能力,通过想象不存在的世界,推测观察到的现象为何
为什么我们要努力推演接近第三个层级?
举个例子,<假如我们把牙膏的价格提高一倍,则之前买了牙膏的顾客仍在选择购买的概率是多少?>
正确的预测,某个因素改变对结果的影响,后续在真实世界就能用过更快、更精准的方式,采取措施,改进目标。
从海盗到豚鼠:因果推断的起源
豚鼠出生体重示例的因果图p+ l * l' * q = 5.66克/天
计算l、l'、q,的路径系数,再用5.66减去他,就得到了P对X的影响。
从证据到因:当贝叶斯牧师预见福尔摩斯先生
从因推出果,叫前向概率,从果逆推因,叫逆推概念。
因果关系的三种结构
- chain,A—>B—>C,链式结构
- fork,A<—B—>C,叉结构
- collider,A—>B<—C,对撞结构
混杂和去混杂:或者,消灭潜伏变量
解决了混杂因子的黄金方法,随机样本,AB实验
烟雾缭绕的争论:消除迷雾,澄清事实
香烟致癌,在今天看是板上钉钉的结论,但在20世纪下半叶的美国,还是个激烈讨论、论证的问题。
美国人均香烟消费量和肺癌及支气管癌死亡率
这个图已经带很强的因果性信息了,关键点在:
- 两个曲线的形状非常拟合
- 前者和后者的波峰上升节点间的时间差距近乎一致,大概是30年左右
在无法对是否吸烟做AB实验的情况下,因果派和否定派各执一词,否定派的认知是,吸烟和癌症之间有混杂因子,例如人可能有吸烟基因,这种基因让人们渴望吸烟,也是他们更有可能患上肺癌。
吸烟对新生儿的影响-因果论证过程
在20世纪60年代中期,雅各布指出,如果婴儿碰巧存在出生时体重不足的问题,那么期母亲在怀孕期间吸烟似乎反而有益于新生儿的健康,这个被称作"出生体重悖论"
实验的过程:
- 通过对比,发现吸烟母亲的胎儿重量的确比不吸烟的母亲胎儿重要轻7盎司。
- 吸烟母亲的低体重样儿存活率要比不吸烟母亲的婴儿高
这就好像说,母亲吸烟有保护胎儿的作用一样
混杂因子影响的方式
网友评论