为什么说统计学是点石成金的魔棒?因为统计学是建立在概率论基础之上,收集、处理和分析数据,找到数据内在的关联性和规律性的学科。
统计学中数据采集上的两个要点——量和质。要想取得准确的统计结果,统计首先要求数据量充足。在统计样本数量不充分的情况下,统计数字毫无意义。至于需要多少数据,统计结果才是准确的,这就需要进行定量分析了。越想要得到准确的统计结果,需要的统计数据量就越大。统计除了要求数据量必须充分以外,还要求采样的数据具有代表性,有些时候不是数据量足够大,统计结果就一定准确。统计所使用的数据,必须和我们想统计的目标相一致。在互联网出现之前,获得大量的具有代表性的数据并非一件易事,在误差允许的范围内做一些统计当然没问题,但是只有在很少的情况下能够单纯依靠数据来解决复杂的问题。
在大多数复杂的应用中,需要通过数据建立起一个数学模型,以便在实践应用中使用,要建立数学模型就要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。从理论上讲,只要找到足够多的具有代表性的样本(数据),就可以用数学找到一个模型或者一种模型的组合,使得它和真实情况非常接近。在工程上,采用多而简单的模型,通常比一个精确的模型成本更低,也被使用得更普遍。
其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型,这种方法被称为数据驱动方法。因为他是先有大量的数据,而不是预设的模型,然后有很多简单的模型去契合数据。数据驱动方法想成功,除了数据量大之外,还有一个前提,那就是样本必须非常具有代表性。大数据时代的到来,很好的解决了这个问题,从而为机器智能的发展奠定了坚实的基础。
网友评论