统计学关心的是数据分析问题,其中包括因果关系,也包括大量的相关关系,它都关心。而且事实上,能够建立因果关系的机会特别少。事实上统计学研究的大量问题是相关关系,但是这不代表因果关系就不重要了
比方说,大数据表明公鸡一叫,太阳就升起来了。把鸡杀光,太阳就不起来了吗?那这就是相关关系而已。这时候我们看到一个现象是什么?如果这个数据应用的场景,主要是为了做预测,预测什么时候太阳该起来了,这行。我看到鸡一叫太阳就起来了,这是预测
那如果说,我们在实际应用中,我是想有动作,比方说,我想改变明天太阳升起的时间,你会发现这时候相关关系就怂了,杀鸡不管用
大量的数据分析,事实上我们是通过相关关系在尽量地把我们的注意力聚焦到一个很小的范围内。然后剩下的真的是用点主观的判断,觉得也就差不多了。
找到因果关系以后,就形成了一个企业的方法论,工具和动作,这就是数据思维的一个基本的架构
什么叫回归分析?只要有Y和X的都叫回归分析。那有Y和X之后,我们一般在大学学习中,第一门线性回归分析课,会讲一个线性模型,那么现在的计算机技术更好以后,我们会有大量的非线性方法。其中包括非线性模型、非参数模型、机器学习、深度学习算法
我们是从数据到价值这个通路,它们有一节一节的。我们就前一节,可能是首先要理解业务和数据这种关系,把业务问题变成数据可分析问题,这一步是不可或缺的。
第二部分,就是比方说机器学习,各种各样的回归模型,还有深度学习的算法。它是从这里解决到下一节,这两节都很重要,哪一节都是不可或缺的。但是在市场上,我们看到对这节关注特别多,对这节关注特别少,而这节存在的问题体量非常大
我们对数据的理解,首先我们要理解分析的目的是什么,然后有了目的之后我们再问:我的业务分析的核心诉求中,Y是什么,X是什么,能不能梳理出来?那个变量带来的改变目标又是什么?那么,Y,我们把它叫作因变量,它是业务最核心的诉求。X是它相关的解释性的变量,我能不能梳理出来?如果能够梳理出来,然后我在这上面可以尝试一些最简单的分析。它能够带给我们一些什么样的价值?我们可以尝试慢慢地去做。时间长了,你会发现生活中处处都是回归分析。
网友评论