读书笔记丨数据之巅

作者: SHIRAN嘻然 | 来源:发表于2019-03-03 23:05 被阅读3次

    读书笔记丨数据之巅

    数据视角的美国历史概览。第一部分以美国1787年立宪会议为起点,将美国200多年的历史划分为7个时代,阐释了数据文化如何形成并影响美国社会。角度新颖,案例丰富有趣。第二部分对大数据的未来进行展望,比较空泛,虎头蛇尾。

    《数据之巅》篇章时序结构

    第一部分 小数据之历史

    第1章 初数时代:奠基共和(1780-1830)

    让我们建立一个标准,让智慧的人、诚实的人都可以信赖它;其余的事,尽付上帝手中。——乔治·华盛顿(1732-1799)在1787年立宪会议上的演讲。

    为了调和民主与共和的矛盾(民主:少数服从多数,分裂出了少数派和多数派两个阵营,导致了分裂;共和:强调如何杜绝"多数人暴政“,一个社会要和谐发展,在贯彻多数人意见的同时,还必须保护少数人的利益),美国立宪会议做出了伟大的妥协——美国国会实行参众两院制,众议院的席位按人口比例在各州之间分配,这体现了民主原则,照顾了大州的利益;参议院的议席每州2名,平均分配,这体现了共和精神,突出了小州的平等权利。任何一项法案,都必须在参、众两院同时以多数通过才能奏效。

    建国者们认为”国家权力应该在人口之间平均分配,而平均,就要求通过普查把国民数量点算清楚,因此人口普查被写进了美国宪法。尽管这一条款很不完美,如黑人=3/5自由人,人口普查10年才进行一次……但这是全世界最早定期开展人口普查的国家,开创了现代意义上的人口普查制度。以人口普查为基础,美国的建国者构建了数据分权的方法,这不仅调和了民主与共和的矛盾,也让权利(各州的议席)与义务(税收等)得以相互制约。人口普查数据成为美国国家权力、资金、资源最根本的分配标准和依据。

    在席位分配的具体技术操作上,有过多轮的探索,如汉密尔顿方案(先确定众议院席位总数,各州的席位配额有人口比例决定,第一轮先按整数部分分配席位,第二轮按各州按小数点后的余数排序,争夺剩余席位,直到所剩议席分完;亚拉巴马悖论(总席位增加却导致某些州的议席减少);韦伯斯特方案:四舍五入;亨廷顿方案:按几何平均数的大小对余数进行取舍……虽然始终没有找到完美的方案,能对权力进行精确的分配,但这种不懈地通过数据、计算、探讨来解决问题的文化已经在萌芽。

    作者说:“人类追求精确、公平,但凡是都没有绝对,人类最终必须和“不完美”妥协。亚里士多德也说:在只可能获得一个大概的情况下,满足于对事物固有的精确度、停止追求完全准确,这是头脑受过训练的标志。但追求完美和接受“不完美”的界限,到底又在哪里呢?

    200年来美国的议席分配制度不断爆出瑕疵和悖论,但通过数据分权的理念,成就了美国共和政治的体制。而共和政治体制中所蕴涵的自由思考和平等讨论的精神,又在反哺美国的数据文化。在初数时代,美国还开始推广数学教育,改良货币政策(十进制)……数据意识诞生。

    第2章 内战时代:终结奴隶制的灯塔(1830-1870)

    起初,人口普查只是为了帮助美国寻找一条理性、公平分配国家权力的路径。但随着数据量增多、普查经验的积累,统计学家开始出现。

    因为南方蓄奴,北方成为大部分外来移民定居的首选,北方人口增速远高于南方,南北方的政治平衡逐渐被打破,奴隶制的存废引发了南北方的经济冲突和利益之争。起初,双方利用人口普查数据进行了多轮辩论,试图说服对方。

    例如“黑人一自由,马上就发疯”:1840年人口普查后,有人发现北方黑人中的精神病比例,几乎是南方的10倍,因此提出北方自由的雇佣制度和商业化把黑人逼疯了,只有奴隶制才能让黑人身心健康。麻省的精神科医生贾维斯调查后发现,这是问卷版面设计的问题,数据在收集过程中很容易填错位置,普查员吧一部分白人精神病患者填到黑人那一栏。这一现象南北方都有,但因为南方黑人基数大,错误被稀释,北方黑人少,因此错误被放大。

    例如北方废奴拍领军任务赫尔珀在1857的《迫在眉睫的南方危机》中,基于人口普查的数据进行南北方对比,认为:北方总体社会财富高于南方;但南方却认为按人均生产率计算,南方要高出北方33个百分点。最终谁也无法说服对方,因为奴隶是人口、劳动力、社会财富的创造者,但本身也是交易品,在计算人均产值时到底算财富还是人口呢?

    最终1861年,林肯上台后,南北大战爆发。

    肯尼迪将普查办公室的统计人员派给了战争委员会,为指挥部提供数据支持,制作了一大批含有面积、工厂数量、人口、年龄分布等信息的可视化地图。这些数据在北方的获胜中发挥了重要作用,其中最著名的是谢尔曼领导的“向大海进军”(March to the Sea)。谢尔曼自断粮草,孤军深入,穿越佐治亚州。他以数据为航标,根据农场、车站等重要资源的分布,通过计算确定行军路线和停留时间。沿着这条路线(毁灭之路),部队能在当地完成补给,抢光&毁光当地物资,并遭遇敌方最少的正面阻击。这场战争的胜利,成为了南北战争中的重要转折点。谢尔曼多年后总结说:“历史上没有任何一次行军远征,曾经建立在像这次一样完善和肯定的数据之上。”

    南北战争虽然以北方胜利告终,但黑奴的问题并未完结。林肯终其一生,也没有说要给予全体黑人政治上的平等权。他解放的只是黑奴经济上的自由权,而政治权利在1965年才真正落实。

    第3章 爆发:镀金时代的三重崛起(1870-1900)

    随着奴隶制的瓦解,美国历史进入一个大发展的黄金时期。到19世纪90年代,它超越英国成为全球最大的经济体。这一时期的快速发展也激发了大量的社会矛盾,大众迷失、焦虑,渴望了解事实和真相,把握未来的发展方向。于是一部分政治家开始鼓吹数据的作用:不仅代表实施,也隐藏着社会发展的规律,不仅能总结过去,也能预测未来。

    总统加菲尔德认为,数据是社会规律的载体,统计是发现这种规律的手段,也许“数据在统治这个世界”说法太极端,但“数据能够表明我们这个社会是如何被统治的”。他在方案中写道:“立法者不仅要把法律根治在人们的意志之中,还要建筑在统计科学解释的社会规律之上。一个社会总有犯罪,但罪犯只不过是这个过程的实施者,政治家应该考虑的,不仅仅是规避犯罪,惩罚罪犯,而是要根除犯罪产生的原因和土壤。”

    “直到现在,历史学家还是以一种总体的形式来研究一个国家,他们只能给我们讲述帝王将相以及战争的历史,但关于人民本身——我们庞大社会中每个生命的成长、各种力量、细节及其规律,历史学家说不出太多的东西……未来的美国历史不应该是这样,他还应该是普通人的历史。而普查,把我们的观察放大到民房、家庭、工厂、煤矿、田野、监狱、一员等集中展示人性之强大及脆弱的所有地方,这使新的历史记录成为可能。”

    于是这一时期的人口普查问题和产生的数据急速增加,普查问题从1870年的100多个上升到1万多个,且伴随着自然的人口增长(美国人口突破5000w),让人口普查的工作量越来越大,每次普查数据统计都要需要耗费近10年。

    要解决这一问题,有三种思路:1. 缩小范围;2. 不断增加数据分析人手;3. 技术创新——技术创新成为唯一的突破口。霍尔瑞斯发明的“打孔卡片制表机”把1890年普查数据的处理时间从八九年缩短至两年半。打孔卡片制表机就是二进制的雏形,它的主要设计思想是:1. 通过打孔,把每个人的问卷转变为一张打孔卡片,一人一卡;2. 通过电路和电流自动读取孔洞,有孔除能接通电路,产生计数“1”,无孔不能连通电路,则为“0”;3. 连通电流后,电流会冲击计数器,使计数器加“1”,自动统计制表。

    霍尔瑞斯的CTR(Computing Tabulating Recroding Company)是IBM的前身;1951年,全世界第一家商用计算机公司,去找的第一个客户就是美国人口普查局,获得的第一份订单,就是处理人口普查的大数据。人口普查——建国时的一个政治决定,却推动美国登上了信息技术的巅峰,引领全世界迈进了一个新的社会形态。

    这一时期还有一个有趣的插曲:自19世纪50年代的肯尼迪开始,每一届的普查办公室临时主任都希望让普查局成为常设机构,但一直被历届国会以普查工作10年一次为理由拒绝。打孔卡片指标机发明后,打孔的工作渐渐成为了女性的专利。梅里亚姆因此雇佣了几千名年轻的姑娘做卡片打孔员,她们每天花枝招展地在政府办公大楼中穿梭。这些希望留在华盛顿结婚生子的姑娘们很快“攻陷”了国会,与公务员们打成一片,将议员们在不知不觉中争取了过来。所以有人说,普查局之所以成为常设机构,与统计科学没有“半毛钱”关系,仅仅是因为有人想把姑娘们留在华盛顿。

    这一时期,隐私观念和数据安全管理的意识也渐渐成熟和完善起来。例如:通过统计每台轧棉机的轧棉记录,来准确记录棉花产量,但如果一个郡县的轧棉机如果不超过3台,其数据必须合并在其它郡县中,不予单独公布。

    在数据可视化领域,我此前确实以为中国落后欧美国家太多,不曾知道国内历史竟还有过优秀的数据可视化作品。原来,地理学家陈正祥先生(1922-2003),用尽毕生心力绘制了几百幅极具匠心的可视化图形,其作品《中国文化地理》中,堪称用数据和地图谱写的中国文化史。但由于特殊历史时期愿意,陈先生被迫移居海外。关于这段故事,作者的评价让我感觉非常扎心:“100多年来,相较于西方发达国家,中国确实在许许多多方面明显落后,别人有的,我们没有,但是如果别人有的我们其实也有,只是不为人所知,不受人尊重,这算不算是一种更令人感到遗憾和难过的落后?”

    第4章 量化:进步时代的数据大潮(1900-今)

    美国的成本收益分析始于治水。每一个水利项目的投资都非常巨大,且影响千秋万代,一定要进行成本收益分析。 但由于水利工程额无形收益、刺激收益到底如何量化,并没有完全统一的标准。水利工程中涉及到的利益方又很复杂(工程兵团、农垦局、铁路兵团等),因此在测算工程的收益中引发了很多问题。为了确保自己在“数据竞争”中不落后于别人,美国政府掀起了一股数据浪潮,各个部门都开始招聘、雇佣统计学家和经济学家,计算出“有利于”自己部门的数字。

    比如有一次工程兵团甚至把“海鸥和蝗虫”也纳入修建一个水库的收益——新水库上将会有1w只海鸥栖居,每只海鸥一年将吃掉1000只蝗虫,每只蝗虫一年平均消耗1千克粮食,被吃掉的粮食市值……

    1946年,工程兵团等相关单位组建了一个成本收益分析委员会,出台了一本《绿皮书》,颁布了采用成本收益评估法时必须遵守的原则:对风景观光等无形收益,智能计算直接门票收益,没有门票的一律按1美元/人次计算,对游客的后续消费行为不纳入计算;对于次级收益,增收的农作物可以纳入计算,但是对农作物二次加工带来的收益不计算;人的生命价值可以应当纳入计算中,但必须单项列明……

    《绿皮书》至今仍在沿用,但其反复修订的部分之一就是:一个人的生命是否应该量化,又该如何量化?

    关于生命价值的量化,曾出现过“未来收入折现法”、“价值意愿法”(以人们为降低生命风险而愿意支付的金额大小,来推导出大众严重的生命价值)、“劳动力市场评估法”等方法。生命价值的量化原本只是在学术界、政界和商界默默进行,没有引起大众关注,但因为1970年代的福特“平托”风波,一下子被推到了风口浪尖,受到了大众的审判。

    福特公司在设计“平托”车时,已知车辆存在重大安全隐患(邮箱在其后轮轴承的后方,追尾易引发爆炸),却因为改良设计的成本大于收益,因此不对油箱进行改造——给每辆车加装一个11美元的设备需要增加1.375亿美元的开支,可以避免180例死亡、180例重伤和2100辆车报废,总价值4953万美元。

    20世纪起,数据开始进入美国的法庭。“布兰代斯诉讼方法”(Brandeis Brief)和“汉德公式”等都被法律界采纳。福特公司开始公开捍卫自己的成本收益分析法:人类的一切理性活动,其实都是在量化和计算,成本收益分析方法是人类理性的终极选择,就连法庭的审判也不例外。

    第5章 抽样时代:统计革命的福祉(1930-今)

    在1936年,罗斯福与兰登的总统大选中,盖洛普用5000人的抽样击败了《文学文摘》240万人的调查,预测了罗斯福将当选。从此,他的“科学抽样”方法名声大噪,开启了市场调查的崭新时代。

    通过抽样调查,盖洛普指出——1. 《乱世佳人》是美国有史以来最流行的小说,共有1400万美国人读过这本书,其流行程度仅次于《圣经》;2.大部分人不反对它分上下两集; 60%的观众想看彩色电影;35%的叐访者对女主角的人选表示满意, 远远高于不满意的比率(16%);3. 观众规模达到5650万,人数之多,将创有史以来癿电影之最。(和最终结果5997万相距不到6%);4. 配合每次上线,都根据潜在观众调整票价和广告策略,设置适合这个群体观看的放映时间和放映地点;5. 由于观众中中年轻人低收入阶层居多, 建议广告画面不要突出重大历史亊件,而要突出人物的情感。

    盖洛普的朋友,戴明,主张在生产中进行质量管理。他的偏差控制图为每个偏差定义了一个发化癿变化的上限和下限,一旦波动超出了这个限制,就说明可能发生了了特殊原因。特殊原因应当首先消除, 但这还不够,真正的质量控制,不但要使偏差落在规定的范围内,还要让偏差波动的范围越小越好,既在生产过程中也要全力消减共同原因,达到“稳定的一致性”。

    但由于战后的美国经济空前繁荣,市场供不应求,企业只关心扩大生产,做大蛋糕,只用在事后将次品剔除。在美国失落的戴明,于是远赴日本,将他的质量管理理论教给日本人。在麦克阿瑟的安排下,戴明在日本进行巡讲,将应用统计方法进行质量控制、抽样技术、消费者市场调查法引入日本。日本的政界、商界高管将他当作“先知”对待,全心全意贯彻他的主张,甚至日本天皇都接见他。在戴明质量控制方法影响下,日本从 “山寨”、“低劣”到“优质”的改变只用了4年,丰田汽车在10年内,从一个每人听过的品牌,成长为世界汽车生产质量和数量的双重第一。日本人吸收了戴明的全面质量管理理念,并总结出“质量管理七大新工具”:树图、矩阵图、亲和图等。

    用数据来改善、控制产品质量,毕竟只是一种方法和手段,中国人最需要学习的,应该是日本人对待先进文明的胸怀和态度。

    第二部分 大数据的崛起

    由于第二部分内容比较空泛,在此只做摘录。

    第6章 开放时代:内开放的历程(1960-今)

    美国社会经历的内开放三部曲:

    内开放1.0(1960年代):信息自由运动,数据承载知情权;

    内开放2.0(1980年代):环保运动,通过数据制衡企业,数据公开成为政府管理社会的手段;

    911之痛,无法很快的准确估算遇难人数。LEHD项目(整合个人数据、工作职位数据、工作单位数据):开放数据的使用权,数据应该服务于民。OnTheMap——免费的,基于地图的互动式查询界面。

    内开放3.0(2000年代):数据开放运动,用数据服务经济发展,创造就业机会,推动技术创新。

    数据开放运动,开放的不仅仅是数据的使用权,还包括数据的所有权,供全社会免费下载使用。时至今日,美国政府已开放了数十万项数据(Data.gov)。2013年,奥巴马把数据开放上升到了法规层面:未来的政府信息一经产生,其默认的形式就应该是开放的,机器可读的。

    有人主张:有商业机构出资收集的顾客行为数据也应该向顾客开放,这是企业社会责任的一部分。

    第7&8章 大数据时代、智能城市(2010-今)

    数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,最终呈现规律的信息。

    摩尔定律:同一面积芯片上,可容纳的晶体管数量,一到两年将增加一倍。

    亚马逊的预判发货(anticipatory shipping):如果判断某客户有购买意愿,会直接将商品寄给他或最近的仓库(常用于畅销书)。

    2013年华东师范大学给一位女生发了一条温馨的短信:“同学你上月餐饮消费较少,是否有经济困难?”——但这是一个美丽的错误,该女生其实是在减肥。

    验证码:《纽约时报》把100多年的报纸电子化,将难以识别的字符发给多个校验者,当几个人返回的结果一致时就证明识别结果正确。

    人类和计算机交互方式的变迁:代码-图形-声音-脑电波和眼睛。

    前智能时代:人通过学习,掌握机器的使用方法,本质是人去适应机器;智能时代:机器通过“理解”人的语言来适应人,为人服务。

    通过搜索,社会需求和生产资料将实现动态的、实时的、最经济的对接。

    在公众号(ShiranLuo)记录读书心得和灵感,欢迎交流~  

    相关文章

      网友评论

        本文标题:读书笔记丨数据之巅

        本文链接:https://www.haomeiwen.com/subject/rmjvuqtx.html