统计学是什么?如果不是专业人士,是不是可以一辈子避而不见?
最近因为要写论文,开始啃各种大数据的书与论文,各路大牛竞相争论大数据究竟是统计学的发展,还是站在了其对立面,开启了全新的数据处理方式?而身为一个没有学过高数的文科生,对于统计学的知识同样匮乏,还停留在划正字统计的初级阶段,面对数字公式与符号更是迅速阵亡。作为一个文科生,在与统计学狭路相逢时,最初是抗拒的,十分期待遇到一本界面友好的入门书。
纪录片《Please vote for me》剧照在戴维·萨尔斯伯格的《女士品茶》的开篇,作者便表达了对妻子的感谢:“她一直督促我将这些故事整理成一部不涉及数学符号的书籍”。这本由一位同样不擅数字的妇女监督而写成的统计学科普书,给文科生靠近统计学带来了一线生机。
统计学中最为核心的概念无疑是“概率”。在现实生活中,概率意味着什么?萨尔斯伯格同样在书中提出了这样的问题并试图解答。
在我们并不知道“概率”为何方神圣时其实早已在不自知时使用了它,可更为通俗地表达为可能性,比如我们觉得下雨的可能性超过一半(概率大于50%),便会备上雨伞,如果更为谨慎,大约会先听一下天气预报,如果听到降水概率为75%,自然而然会想到带伞出行。这很日常,也很统计学。在《女士品茶》中,萨尔斯伯格同样援引了萨维奇在《统计学基础》中的观点:“人们天生就知道用概率来管理自己的生活。在从事一项冒险之前,人们凭借直觉判断各种结果出现的概率。如果一个人认为遇到危险的概率非常大,那么他就不会采取这种行动。”
然而,尽管早已不知不觉使用了概率,但我们未必真的理解概率。萨尔斯伯格对于“个人概率”概念的一致性假设进行开炮,引经据典,形象犀利。所谓一致性假设,需要保证人们对各种事件的概率做出一样的判断,即“保持内在一致性”,在数据足够多时,有理性的人将最终达成一致。
举例而言,不同的人对于同一个地方的降雨概率应该有一样的判断,面对相同的数据,不会导致两个人分别估计此地下雨的概率为70%与90%。从凯恩斯开始,便对这一假设进行了反驳,个人概率受到文化环境的影响,而非由内心直觉直接决定,同样,更多时候,作为普通人,我们无暇分辨68%与70%之间区别所带来的巨大差异,在我们的想法与实际运用中,概率的排序比精确的数据更为实用,“在制定决策时,我们很少需要知道某一事件的精确概率数值,能够为事件的概率排序通常就已经足够了”。在绝大多数场合,我们无法获知足够的数据,所谓概率的判断不过反映了人类量化不确定性的模式,其中反映出了粗略的特点。最终,统计学家略带沮丧地发现:“没有一个人的表现符合萨维奇的一致性标准”,“只能对50%的概率和‘几乎一定’的含义保持一致的感觉。”概率似乎因此被拉下了神坛。
那么,概率究竟有没有用?
即使粗略,概率中所反映的数据的分布即使在统计学与社会发展到今天,依然被我们所研究所看重。随着大数据时代的到来,传统统计学中的抽样概率也许会渐渐失去其垄断地位,但统计学仍然是我们遭逢数据的法宝。无论在哪个领域,大数据均以将我们裹胁,作为决策的基础,概率乃生存之道。
也许,就如书封所言:“了解统计学的人,运气都不会太差。”
网友评论