美文网首页
【原创】《数据挖掘前沿问题》读书笔记

【原创】《数据挖掘前沿问题》读书笔记

作者: 野猫子Finger | 来源:发表于2020-10-26 06:00 被阅读0次

Finger导读:本文是对吴喜之《数据挖掘的前沿问题》一书中“统计从数学继承了什么”一节的思考。

作者提出,“很多人认为统计学是“数学的一个分支”。 这当然不仅涉及统计和数学的定义,而且涉及统计的性质和应用背景。如果脱离统计的应用背景而把统计作为纯粹数学的一部分,那么,统计学没有存在的必要。” 

之所以这样说,原因有如下三点——

第一,统计学的方法都是在应用的推动下产生的,如果没有应用,它们就不会出现。 

第二,如果以应用为目的而产生的统计方法不能满足应用的要求,再漂亮的数学表达也不能保证其存在;也就是说,脱离应用背景的统计方法是没有生命力的。 

第三,统计中的数学本身不能形成一个完整的逻辑体系(贝叶斯统计可能被认为是例外),其中有大量的人为或主管因素在起作用,这是不符合纯粹数学的本质的。 

作者认为,“由于统计发展历史中的数学背景,20世纪中期基本定型的数理统计教科书充满了数学味极强的定义、引理、定理、推论,以及贯穿其中的纯粹数学推导和证明” ,而“由于很多数理统计课程基本上由数学老师教授,完全按照纯粹数学的模式设计,所以对于背后的基于数据的统计思想介绍得不很充分,也不强调这些充满假定的数学模型都是对现实世界的不同程度的简化。导致“几乎没有人告诉学生,所有统计教科书中对数据(或其总体)的数学假定都是无法用数据验证的;大多数教科书仅指出这些模型在什么假定下可用,而很少指出违背这些假定的后果; 统计教科书往往在给出统计方法结论的同时,不指出根据这些结论所作出决策的风险也很少强调统计学家不能替代实际领域专家做决策的原则”。

看到这样一段话,我自己有种茅塞顿开的感觉。这么多年做数据分析,总觉得书上学的那些技巧一拿到实际场景都无用武之地,一度怀疑自己所学不精。现在看来,学校统计教学的出发点就有问题。统计应该被看成一个工程学领域,它应用数据,但并不追求绝对正确,而是寻求在约束条件下取得最优值。

另外我认为,统计教学应该侧重于建模,训练学生解决实际问题的能力,而不是出了几道题,然后生拉硬扯地套用标准统计方法,告诉你这个可以用因子分析,而那个就应该用主成分分析,完全不解释其中道理;或者告诉你照着菜单点几下就能出结果,完全不说明选这个选项的理由是什么(其实很多假设检验的方法是竞争性的,无关对错,只是准确度的不同,但是就是没人给讲清楚,急死我了......)。

所以今后在分析数据的时候,脑子里应该时刻有这跟弦:数据到底反映了什么样的现实?可不可以根据数据建立预测模型?模型的精度是多大?等等。

希望今后再看到数据的时候,不要再“一顿操作猛如虎,看到结果心发怵”了。


我是Finger,关注心理学、儿童教育,以及人类数字化生存,喜欢写作,旅游,如果你对我的文章感兴趣,欢迎留言与我交流。

相关文章

网友评论

      本文标题:【原创】《数据挖掘前沿问题》读书笔记

      本文链接:https://www.haomeiwen.com/subject/jqwnmktx.html