随着互联网、传感器,以及各种数字化终端设备的普及,数据呈现爆炸式的指数级增长。据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。175ZB的数据到底有多大呢?1ZB相当于1.1万亿GB。如果把175ZB全部存在DVD光盘中,那么DVD叠加起来的高度将是地球和月球距离的23倍。目前美国的平均网速为25Mb/秒,一个人要下载完这175ZB的数据,需要18亿年。
大数据已经成为现代社会的底层架构,数据里隐藏着基于现实而影响未来的线索。数据庞杂,眼花缭乱,如果不加以处理,它只是一堆垃圾而已,毫无利用价值。那么如何从中获得有用的信息呢?统计学是唯一的答案。有人可能听到“统计学”可能就吓跑了,默认它很难懂很难学。
《魔鬼统计学》可以帮助你除去内心对“统计学”的恐惧,为什么这么说呢?
《魔鬼统计学》《魔鬼统计学》作者伊恩·艾瑞斯对数据分析非常热心,为各种数据做过数据分析。伊恩·艾瑞斯在其卓越的著作《超级数字天才》(Supercrunchers)中曾写道:“不是让统计数据充当专家的仆人,而要让专家成为统计机器的侍从。在这本书中作者用真实生动的案例,讲述了统计学如何解决一系列的社会科学问题,在这个过程中,作者为我们普及了统计学的基本概念和原则。相信我,让我带你阅读这本书吧!
在这本书的最开始作者列举了我们生活中的最贴合最常见的例子—推荐系统。你有想过谁在为我们思考吗?很多时候都是算法为我们在思考,当你去淘宝购物时搜索某件物品,它会为你推荐相似的东西;当你刷抖音小视频的时候,它会为你推荐你喜欢的视频,久而久之你看的视频是如此的单调只是一个系列的内容;婚介所可以通过回归预测你的最佳伴侣,高尔顿通过计算得到回归方程发现父亲和儿子身高的类似趋势……
通过前面的举例你会不会发现统计很厉害呢,那计算机可以像人类一样思考吗?基于这种想法,新的统计方法对于超级数据分析革命做出了重要贡献。“神经网络”,与行之有效的回归公式相比,神经网络方程预测是另一种全新的方法。神经网络是受人类神经系统的启发而开发出来的。神经网络是通过对人脑的基本单元——神经元的建模和联接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式识别等智能信息处理功能的人工系统。目前应用来看,它是一个十分有效的模型,帮助我们做很多决策。现已在计算机视觉、语音识别、自然语言处理等方向开创了一系列令人激动的创新,比如,无人驾驶汽车;在经济和货币政策、金融和股票市场、日常业务决策;医疗上肿瘤预测……
想象一下未来图景,它将是惊心动魄的,在书中这样描述的:
很久以前,我们知道
不管遇到何种问题
你只需要使用合适的公式
这是傻瓜都知道的解决方案。
—“最简单”,蓝色少女(indigo girls)
信息全面数字化的前景让我们激动,但我们也应该带有批判性思维去看待它。这可能是没有隐私的世界。超级数据分析为我们带来了一种统计先决论。在书中提到了这样一个例子:在最早的面部识别软件是警察用来寻找通缉犯的,现在呢,公共场合匿名性的范围正在缩小,有了面部识别软件,我们甚至不需要提供我们自己的姓名,而一旦识别出来,你的大部分相关信息将会被别人知道。
不过话说回来,处于信息化时代的我们,比起直觉、经验更重要的是学会从数据中获取知识,掌握统计学的基本方法应该是每个人的底层能力,因为统计学在生活中无时无刻都在用到它,每个人应该去了解它,学会分析事情的本质是什么,在《魔鬼统计学》中还有各种各样精彩的案例,可以拿来慢慢阅读感受生活中的统计学!
网友评论