美文网首页
大数据处理与分析笔记---第一讲

大数据处理与分析笔记---第一讲

作者: 羊老头 | 来源:发表于2019-09-29 15:27 被阅读0次

绪论

这门课的主旨:以统计感知思想为基础,以大数据的可计算性为出发点,讲解大数据的处理与分析方法。
提到大数据(big data),想到就是它的4V(Volume、Variety、Vetocity、Value)+1O(Online)+1C(Complexity)+1U(Usability)特性。

1 我们可以把大数据看成是由一个随机试验的全部样本点构成的样本空间/总体。

大数据:由特定随机试验的全部样本点构成的样本空间/总体。
事实上我们得到的数据都只是总体的子集,因此,我们未曾改变用“部分去逼近整体”的建模思路。


所以,如何去逼近,如何去知道正确逼近了,需要从概率统计中去找答案。
3 概率论的一些知识
这里只是简单列举一些概率上的概念,不懂需要回去复习即可:

(1)随机事件:在随机试验中,可能出现也可能不出现,在大量重复试验中具有某种规律性的事件。
例子:抛一枚硬币是一个随机试验,正面向上是随机事件。
(2)样本点:随机试验中的一个可能出现的试验结果。仅含一个样本点的随机事件叫做基本事件,而全体样本点组成的集合称为试验的样本空间(总体)
(3)随机事件:若干个基本事件构成,为样本空间的一个子集。(样本点出现==事件发生)
(4)随机变量:样本空间上的可测函数;
离散型随机变量:取值为离散集合
连续型随机变量:取值为连续空间
(5)概率:又或然率(有可能而有不一定),随机变量取某值的可能性。
离散/连续/混合值属性离散/连续型随机变量X及其分布律/概率质量函数分布函数


!!对于连续型随机变量,我们无法研究其单点取值的概率,但是我们可以研究其区间取值的概率。一维看长度,二维看面积,也就是通过积分将概率密度函数计算出分布函数。

(5)概率分布
二项分布:B(n,P),假设实验E只有两个可能的结果,独立重复n次实验E。P{x=k}=C_n^kP^k(1-p)^{n-k},k=0,1,2,..,n
0-1分布:n=1的二项分布
泊松分布:n很大(n\geq 40)或p很小(p\leq 0.1)的拟合二项分布,\pi (\lambda ),即lim_{n\rightarrow \infty }C_n^kp^k(1-p)^{n-k}=\frac {\lambda ^k}{k!}e^{-\lambda },其中\lambda =np(可以用数学归纳法证明泊松分布,这里略)
指数分布f(x)=\begin{cases} \frac {1}{\theta} exp(-\frac{x}{\theta})& \text{ } x>0 \\ 0 & \text{ } other \end{cases}
正态分布f(x)=\frac {1}{\sqrt {2\pi \delta }}exp[-\frac {1}{2}((\frac {x-\mu}{\delta})^2)],x\in( -\infty,+\infty)
瑞利分布f(x)=frac {x}{\delta ^2}exp(-\frac {1}{2}\frac {x^2}{\delta ^2}),x>0
柯西分布f(x)=\frac {1}{\lambda }[\frac {\lambda}{(x-x_0)^2+r^2}],x\in (-\infty,+\infty)
(6)随机变量的数学特征:
期望E(x)=\begin{cases} \sum x_np_n& \text{ 离散型随机变量} \\ \int_{+\infty}^{-\infty} & \text{ 连续型随机变量 } \end{cases}
方差:DX=E(x^2)-[EX]^2


补充:
大数定律:当试验次数很多时,样本平均数接近总体平均数。
切比雪夫大数定律:设随机变量x_1,x_2,...,x_n相互独立,且具有相同的期望\mu和方差\sigma,则对于任意的正数\epsilon,存在lim_{n\rightarrow \infty}P({|\frac {1}{n}\sum_{k=1}^nx_k-\mu|})<\epsilon=1即可以理解成,当n趋于无穷时,\frac {1}{n}\sum_{k=1}^nx_k以概率1趋于\mu

1

相关文章

网友评论

      本文标题:大数据处理与分析笔记---第一讲

      本文链接:https://www.haomeiwen.com/subject/basluctx.html