第四章 相关性和相关系数
·视频网站根本不知道我是谁,但它怎么知道我喜欢看动作片而不是纪录片或电视剧?
-推荐的电影和我喜欢的电影类型类似,或者推荐和我在同一部电影打高分的网友所喜欢的电影。
·相关性,体现的是两个现象之间相互关联的程度,例如在夏天,温度的高低与冰淇淋的销量就存在相关性。
·相关系数:相关性将两个变量的关系精炼成的一个描述性数据。
-相关系数的区间是1到-1。系数越接近1或-1,变量的关联性就越强,1是完全相关。-1是完全负相关,即代表一个变量的任何变化都将会引发另一个变量朝着相反方向发生等量的改变。如果为0,则意味不存在有意义的联系,例如高考成绩和鞋码。
-身高和体重的相关系数计算方法:
1、身高标准值 =(个人身高 - 总样本平均身高)/ 总样本身高标准差;
2、体重标准值 = (个人体重 - 总样本平均体重)/ 总样本体重标准差;
3、将每个学生的体重标准值和身高标准值相乘,可以发现,当一个学生的身高和体重都偏离平均值较远时,乘积的绝对值也会比较大;
4、将第三步的乘积想加,再除以统计对象的数量。(例如有15个学生的身高体重数据,这个就是总样本,所以除以15),即可得到相关系数。
第五章 概率和期望值
·买福利彩票,去赌场豪赌、或股票期货,哪种方式让你跻身《福布斯》 排行榜的可能性更大?
·施利茨啤酒口感实际上和其他啤酒差不多,但是品牌名气小,所以在“超级碗”直播时,只邀请那些声称自己是另外一个啤酒品牌忠实者的消费者,用施利茨分别和几种品牌进行两两的“盲品”测试,看下消费者认为哪个啤酒更好喝。
在保证试验独立,即盲品者之间互不影响的前提下,从概率学来看,至少有40人选择施利茨的概率为98%,至少45人的概率是86%。现实结果是,正好有二分之一声称自己是其他品牌忠实者的人选择了施利茨啤酒。
-事例:DNA测试对比、停电且备用电机失灵、抛硬币连续得到正面的概率、取密码时用字母+数字的安全性剧增。
·期望值事例:假如彩票中奖概率如下:1/10(1元)、1/15(2元)、1/42.86(4元)、1/75(5美元)、1/40000(1000元),每张彩票1元,则期望值(概率乘奖金再相加)为0.56元,由此可知,买彩票是个糟糕的投资,尽管你第一次可能中了2元。
·大数定律:随着实验次数的增多,结果的平均值会越来越接近期望值。就像你第一次中奖2元,第二次可能中1000元,但是当你花了100万元买了100万张彩票时,最终的中奖金额是56万元。还有赌场总是有利、施利茨啤酒盲品、保险、投资评估、疾病筛查、证券违规的监管等都应用了大数定律。
·预测分析学,可以通过一些看起来毫无关联事件的随机事件来预测那些用户会延期还信用卡、那些用户会更愿意掏钱消费等。例如,为家里添置一氧化碳探测器或凳脚套防止刮伤地板的人,几乎从来不会延期还款,而所有购买骷颅头造型汽车挂饰或对汽车的排气系统进行大量改装的人基本不会按时还款。
第六章 蒙提·霍尔悖论
·在一个游戏里,有三扇门,只有一扇门后面有奖。开始时,先让玩家选定一扇,然后主持人再打开一扇没有奖的门,跟玩家说明剩下的两扇门里有一扇是有奖的,并且玩家还有一次选择的机会。问:如果为了中奖,玩家要不要改变选择?如果相同条件下,把3扇门换成一百扇门,再打开98扇没有奖的门之后呢?
·经过测试,绝大部分人都不会改变选择,因为都觉得改不改变中奖概率都是差不多的。实际上,3扇门改变前中奖概率是1/3,改变后是2/3;而一百扇门,改前中奖率是1%,改后是99%。
第七章 黑天鹅事件
·1%的小概率风险如何在2008年成为击垮美国华尔街的“黑天鹅”,并毁了全球金融体系?
·美国金融行业使用的都是同一个风险晴雨表---风险价值(VaR)模型。VaR既是一个简洁的指标(将大量信息整合为一个单独的数字),又有强有力的概率学支撑(对每家公司的资产和交易都给出了预期收益和损失值),是一个不可多得的模型。
-例如,某项投资在99%的情况下会使公司的损失值低于1300万元,还有1%的概率造成重大损失。但实际上,这个“重大损失”有多重大,没有人能估量,所以当它真正发生的时候就会造成不可估量的损失,例如2008年的金融危机。
·概率的错误和困境:
-想当然地认为事件之间不存在联系。例如客机一个引擎发生故障和另外一个引擎的联系;
-对两个事件的统计独立一无所知。例如赌徒谬论,一枚硬币连续抛几次的结果都是反面朝上,有人就认为下一次肯定是正面朝上,就像赌徒经常念念有词“总该轮到我赢了吧”。
-成群病例的发生。例如,课室有100个学生站着抛硬币,抛到正面的必须坐下,第一次大约有50人会坐下,第二次会有25人坐下,第三次、第四次...,通常在连续5或6次后还有一位学生,那么这个学生是因为平时训练有素所以能坚持下来?明显不是,只是概率问题。就像一个地区有几百万人,同一个地方发生几例白血病的概率并不低。还有彩票中奖。
-检方谬论。假设你是检方,有两个如下事实:1、现场找到的DNA与被告的DNA吻合;2、除被告外,该DNA样本与其他人吻合的是百万分之一。在这些基础上,你会认为被告有罪吗?
-回归平均数。例如,被提名为《商业周刊》的“最佳经理人”,他们的公司会在接下来3年内遭受利润和股价的双重下挫。
-统计性歧视。例如,女司机群体的事故率比男性司机群体的事故率高,那么保险公司要不要对女司机群体提高保险费呢?
第八章 数据与偏见
·多次被雌性果蝇冷落的雄性果蝇也会“借酒消愁”。
·要求数据做的三件事。1、在评价某一大数据构成的人口特点时,要是具有代表性的数据样本。例如,调差某个领导候选人的支持率时,需要通过简单随机抽样法来收集数据;2、提供比较。例如新药和旧药的有效对比。接受过职业培训的有犯罪前科的人,再次入狱的可能性会不会比没接受培训的人低;3、“因为所以,科学道理”。有时候我们会面对一大堆数据时,并没有明确的想法,但是总会觉得这些数据会派上用场,而很多时候也的确这样。
·纵向研究:对大量调查对象一生中不同的时的信息进行收集,比如每两年进行一次采访。所得数据集即为“纵向数据集”,相当于‘法拉利’。例如,名牌大学的学生以后是不是会比普通大学的学生过得要好。
·横向研究:同一时刻进行的调查。数据集即为“横向数据集”,相当于“丰田”。例如,对疑似新冠病例进行调查时,会问他曾经到过的地方、接触过的人、所乘交通、身体状况等。
·统计错误其实是数据的问题,统计分析本身并没有错,但用于分析的数据要么是伪造的、要么是不适当的。以下几个例子。
-选择性偏见。例如,当你进行一项居民健康调查时,只选择医院里的病人来当样本肯定是不适当的。
-发表性偏见。肯定性的研究发现相比否定性的研究发现来说,更有可能被发表,从而影响我们对事实真相的判断。例如,你进行纵向研究,对一个包含十万人的代表性样本进行研究,得出玩电子游戏不能预防直男癌的结论,那么没有一本医学杂志会发表你的研究成果。相反,如果得出有关的结论,就大概率会被发表。对于统计学来说,巧合的存在决定了异常事情的发生。例如,99项研究表明电子游戏和癌症无关,所以都没有被发表,但是有一项研究表明,电子游戏可能与癌症有关,那这篇被发表之后,人们眼里就只会有这一个观点。
-记忆性偏见。回忆确实很神奇,但并不是优质数据的可靠来源。人们总认为现在和过去是有逻辑联系的----有因才有果。但问题是,当我们试图解释当前一些特别好或特别坏的结果时,我们便会出现“系统性脆弱”的尴尬。例如,对患乳腺癌的女性进行研究时,她们回忆的饮食结构里,食物的脂肪含量明显上升,因为在她们的印象里,乳腺癌的患者应该是摄入脂肪量过高的。就像,一个女生被渣了之后,你再叫她回忆一下她和渣男一起时,渣男的异常行为,这时候她脑子里的异常行为就会明显升高,比如这个渣男不让我看手机(实际上,也有可能是因为手机里有令人羞涩的‘动作片’)、渣男不肯喝我的奶茶(可能是这个奶茶有什么东西是渣男不喜欢喝的或者是过敏的)。
-幸存者偏见。例如,一些考研培训机构声称,该机构有两个人400+高分上岸!!但实际上,这家培训机构可能有一万人,一万人才有两个高分上岸。又例如,一些高中公布高考数据时,你会发现,几乎每个高中都是第一。
-健康用户偏见。例如,有一个结论,定期服用维生素的更有可能不受疾病困扰,实际上有可能是这类定期服用维生素的人也有其他的锻炼,比如定期游泳、打篮球、做俯卧撑、保持健康的作息等。
网友评论