统计推断
主要关注如何从随机过程产生的数据中提取有效的信息。
统计估计量:将获取的数据进行简化,使他们更容易理解,用简明的方式概述规律,可以使用数学对其进行建模。
总体和样本
总体:一组特定的对象或单位 (e.g. 推特上的消息,天上的星星)
总体的观察数据:度量和提取这些对象的某些特征。
样本:在总体中选出的一个子集。记录样本的观察数据,根据样本的特征推断总体的情况。
如果采集样本的方法有偏差,会导致根据样本推断出的总体的结论错误。
大数据的总体和样本
如果可以获得总体的所有观察数据,为何还需要采样?
- 采样可以解决scalability的问题,高效处理海量数据。
- 即使拥有了所有数据,基于这些数据也不能推断和这些数据无关的总体。(此时的所有数据并不能遍历所在的属性空间)
每次对一种数据生成过程中所采集的数据进行观察, 这组数据就是样本。
采样过程中所带来的不确定性:取样分布
大数据的假设带来的问题
- 采集和使用大量的数据,而并非小样本
- 接受数据中的noise
如果使用N来表示对总体的观察次数,N=全部是否正确呢?
并非如此,N可能永远无法代表全部。
不能忽视一些因果关系,不能单纯地相信数据,因为可能还有好多相关的数据并不存在于统计的N次中。
建模
要分清到底是数据模型,统计学模型,还是机器学习算法。
用函数表示产生数据时存在的不确定性和随机性,以此来形容数据本身的结构。
在开展具体的建模之前,要对建模的流程有一定的了解。先做什么,什么变量影响什么变量,因果关系是什么,检验的结果怎么样。
如何构建模型? 可以探索性地对数据进行分析。比如,先绘制直方图或散点图,以便于对数据产生一个直观的感受。试着用一个线性方程,看这个方程对数据是否有意义?
概率分布
概率分布是统计模型的基础。在生活中的一些现象,经过测量后发现,他们以一种固定的数学模式重复出现,比如身高服从正态分布。产生的数据可以用函数来描述,通过设定函数中的参数,可以使函数接近于实际数据的分布,这些参数可以在对数据进行估计的基础上得出。
并非所有过程产生的数据都服从某种已知的分布,但大多数都会服从。概率分布可以理解为对可能结果的子集指定一个概率。比如正态分布的参数miu是平均数或中位数,决定分布的位置。参数sigma决定分布的幅度。
连续的概率密度分布
如果随机变量x的概率分布为p(x),该函数将x映射为一个实数,要使其成为概率密度函数,需要将其积分求曲线覆盖下的面积为1,这样才可以称其为概率。
例子:设x为距离下趟公交车到站的时间,x为随机变量,因为到站时间不固定。假设已知等待时间的概率密度函数为p(x)=2exp(-2x),如果我们想知道下趟车在等候12-13分钟后的可能性,只需要求2exp(-2x)在12-13之间的定积分的面积即可。
如何知道该使用哪种概率分布?
可以通过实验确定。随机到达公交车站,测量等候下一班车的时间,重复实验多次,将测量的数据绘制成散点图,看其与那种概率分布曲线温和。或者基于对等待时间是一种普遍的现象的了解,可以想到用指数分布p(x)=\lambda exp(-\lambda x)来描述。指数分布就是专门用来描述自然界这种现象的。
单变量还是多变量?
如果是多变量来描述随机变量的分布,称其为联合分布。比如使用p(x, y)来描述概率分布,则输入为一个平面上的点(x, y),输出为非负数,平面的积分为1。
当变量之间存在条件时,可使用条件分布p(x | y),即为给定y时,x的概率密度。
条件可以理解为空间中的子集。比如,我们设随机变量X为消费金额,用p(X)表示消费金额分布,假设用户购买商品前浏览Y件商品,则可以使用p(X|Y>5)表示用户在购买商品前浏览过5件商品时消费金额的概率分布。
当我们的数据表现形式为n行k列(有n个数据点,每个数据点有k个随机变量),这些数据为k个随机变量组成的联合分布的n个实例。
fitting模型
fitting即为拟合,使用数据来估计模型中的参数。在拟合过程中,要引入各种优化算法,比如maximum likelihood estimation (MLE)。估计参数的时候,参数就是估计量。比如,用函数y=ax+b来刻画出一个拟合模型,则可以判断该拟合模型为线性模型。
过拟合?
使用数据去估计模型参数的时候,得到的模型并不能模拟现实的情况,只在样本上效果比较好,而抛开样本后的效果不好。
网友评论