在我看来,只有数据量很大且数据维度全的数据才能够称得上是大数据。
为什么数据量必须得要大?
这是因为如果我们使用局部样本来代替整体的时候,可能会由于局部样本不能够完全反映整体,从而导致我们对整体的真实情况的认知造成偏差。例如当我们以贴吧和网易的用户素质来作为全体网民的整体素质,显然会造成我们对整体网民素质的认知要远比真实的素质要低,而如果用知乎来代替整体,则也会造成偏高的情况。
所以样本代替整体必然会产生偏差。而随着科技的发展,我们已经能够直接使用整体数据来对整体进行数据挖掘了,既然如此那么我们为何不直接使用整体数据进行数据挖掘呢,对吧?
虽然我们已经明白数据量必须要大的重要性,那么对于数据挖掘什么才叫大呢?
例如我们要研究B站上的二次元群体的用户行为,但是我们手上却只有知乎、贴吧、微信、QQ等的大数据,这对于我们来说,这样的大数据并没有任何意义,同样对于我们的目的来说,这样的大数据其实是小数据。
因此所谓的大数据应当是覆盖我们的研究对象的全体对象的数据,如果这些数据不能覆盖、也跟我们所研究的对象无关,那么这些数据就不是大数据。
为什么数据维度必须要全?
试想即使我们获取了6亿网民的数据,但是数据维度只有年龄这一个维度,那么我们除了能够分析网民的年龄构成之外,就再也做不了其它的事了。这样的大数据对于我们来说并没有多大的意义,也很难产生商业价值。换言之,如果数据维度很全,我们所要研究的维度数据都有,那么我们就能进行我们想要进行的数据挖掘,这对于我们来说才有意义,也更容易产生商业价值。
数据维度全既可以用于整体数据挖掘(宏观)也可以用于个体数据挖掘(微观)
事实上目前的数据挖掘都是偏向宏观的,所以这里不再赘述。主要谈谈微观的数据挖掘。
微观数据挖掘是什么意思?理论基础是什么?
微观数据挖掘是在数据维度极全的基础上(这是前提条件)对一个人或极少数人进行数据挖掘,目的是能够通过数据来对这个人到底是什么样的人构建一个模型,这个模型应当能够比较准确地预测对象的行为。如果不太理解的话,可以去看看《心理测量者》
理论基础是行为心理学,我们认为一个人是什么样的人不取决于他认为自己是个怎么样的人,而是取决于他的行为,而他的行为可以被量化成数据,而我们可以利用数据构建模型来拟合这个人的真实情况,到底是一个怎么样的人。
微观数据挖掘有什么用?
主要在两方面:
一方面是为对于我们而言特别重要的客户进行微观数据挖掘,从而为我们提供更大的商业价值。
另一方面则是为所有的人都进行微观数据挖掘,这样我们就能够准确地预测每个人的行为,从而从中挖掘到更大的商业价值。
扫描下方二维码,关注我们。每天都有精彩内容哦!~
网友评论