一些数学知识的记录

作者: IT_小马哥 | 来源:发表于2022-10-26 16:16 被阅读0次

一些数学知识的记录
机器学习
具备哪些条件学习大数据开发更容易？
Android 水平仪开发
学习大数据开发的前提是什么？
大数据基础知识储备
魔方中的一些数学知识
机器学习 To-do list
生活中的数学
数学排位赛-2021-02-16

机器学习菜鸟，记录一些数学笔记，方便自己阅读和理解。

期望E的下标

地址一
 地址二

将下标符号中的变量作为条件

例子一：

$E_{X}[L(Y, f(X))] = E[L(Y, f(X)) | X]$

例子二：

$E_{X}[h(X,Y)] = E[h(X,Y) | X] = \int_{\infty}^{- \infty} h(x,y) f_{h (X,Y) | X} (h(x,y) | x) dy$

将下标符号中的变量用作计算平均

例子一：

$E_{X}[L(Y, f(X))] = \sum_{x \in X} L(Y, f(X)) P(X =x)$

例子二：

$E_{X} \sum_{k=1}^{K}[L(c_k,f(X))] P(c_k | X) = E \sum_{x \in X} [L(c_k,f(X)) P(c_k | X=x)] P(X=x)$

例子三：

$E_{X}[h(X,Y)] = \int_{\infty}^{- \infty} h(x,y) f_{X} (x) dx$

期望的一些公式

离散型： $E(X) = \sum x_i p(x_i)$
连续性 : $E(X) = \int xf(x) dx$
如果 $X$ 是连续型随机变量，那么随机变量函数 $Y=g(X)$ 的数学期望是 $E(Y) = E(g(X)) = \int g(x)f(x) dx$
二维随机变量 $（X, Y）$ 的分布律为 $P\{ X=x_i, Y=y_j\}, i,j = 0,1,2,...$ , 对于 $g(X,Y)$ ，数学期望为 $Eg(X,Y) = \sum_i \sum_j g(x_i,y_j)p_{i,j}$
二维随机变量 $（X, Y）$ 的密度函数 $非（x.y）$ , 数学期望为 $Eg(X,Y) =\int g(x,y)f(x,y)dxdy$
$E[\sum_{i=1}^n a_i X_i + b ] =\sum_{i=1}^n a_i E(X_i) + b$
如果随机变量相互独立 $E(X_1X-2 \cdots X_n) = E(X_1)E(X_2)...E(X_n)$
$E(CX) = CE(X)$
$E(X+Y) = E(X) + E(Y)$
$E(X) = \sum_i E(X | A_i) P (A_i)$

条件分布

来自于这里

连续性随机变量，二维随机变量 $(X,Y)$ 的联合密度函数为 $p(x,y)$ , 边缘密度函数分别为 $p_X(x), p_Y(y)$ ，在 $Y=y$ 的条件下， $X$ 的条件密度函数为 $p(x | y) = \frac {p(x, y)}{p_Y(y)}$ . 在 $X=x$ 的条件下， $Y$ 的条件密度函数为 $p(y | x) = \frac {p(x, y)}{p_X(x)}$ .
从以上两个式子可知： $p(x, y) = p_X(x) p(y | x)$ ， $p(x, y) = p_Y(y) p(x | y)$
也就是说，连续场合下的全概率公式： $p_Y(y) = \int p(x, y) dx = \int p_X(x) p(y | x) dx$ , $P_X(x) = \int p(x, y) dy = \int p_X(x) p(x | y) dy$
因此，连续场合下的贝叶斯公式是; $p(x | y) = \frac { P_X(x) p(y | x)}{ \int P_X(x) p(y | x) dx}$ . , $p(y | x) = \frac { P_Y(y) p(x | y)}{ \int P_X(x) p(x | y) dy}$

一些公式
$E(X) = \int \int x p(x,y) dx dy$
$E[E(X| Y)] = \int E(X| Y =y ) \cdot P_y(y) dy$ . 这是因为，我们可以将 $E(X| Y)$ 看作是 $y$ 的函数，给定一个条件 $y$ ,就产生一个确定的的值，说明该随机变量的概率依赖于 $y$ , 则概率密度函数为 $P_Y(y)$ , 从而，期望是变量和概率密度函数的积分。

- $Y$ 是离散型随机变量： $E(X) = E[E (X | Y)] = \sum_j E(X | Y = y_i) \cdot P(Y=y_j)$

- $Y$ 是连续型随机变量： $E(X) = E[E (X | Y)] = \int E(X |Y=y_j) \cdot P(Y=y) dy$

条件期望

在 $Y = y$ 的条件下， $X$ 的期望.

$X$ 和 $Y$ 离散场合下： $E( X | Y = y) = \sum_i x_i P(X = x_i | Y = y) = \sum_i x \frac{P(X=x_i, Y=y)}{P(Y=y)}$
$X$ 是连续， $Y$ 是离散场合下： $E( X | Y = y) = \int xp(x | y) dx$
$X,Y$ 都是连续性随机变量，联合密度函数为 $f_{X,Y}(x,y)$ , $Y$ 的密度函数为 $f_Y(y)$ ， $X$ 的条件密度函数概率 $f_{X | Y}(x|y) = \frac{f_{X,Y}(x,y)}{f_Y(y)}$ , 则 $E(X | Y=y) = \int xf_{X|Y}(x|y) dx = \frac{1}{f_Y(y)} \int xf_{X,Y}(x,y)dx$

在 $X = x$ 的条件下， $Y$ 的期望.
离散场合下： $E( Y | X = x) = \sum_i y_i P(Y = y_i | X = x)$
连续场合下： $E( Y | X = x) = \int yp(y | x) dy$

先验、后验、似然和贝叶斯

首先，我们熟知的贝叶斯是这样的;
$P (\theta | x) = \frac{P(x | \theta) \times P(\theta)}{P(x)}$ , 即
.

我们可以把 $\theta$ 理解为原因（模型参数）, $x$ 理解为结果（样本）. $P(x | \theta)$ 是似然分布， $P(\theta |x)$ 是后验概率， $P(x )$ 是证据， $P(\theta)$ 是先验分布.

一般来说, 先验代表的是人们抽样前对参数的认识（ $\theta$ 的估计）, 后验代表的人们抽样之后对参数的认识，所以后验可以理解为根据抽样信息对先验的调整。

最大似然

这个写的好
 这个写也很好

首先区分概率和统计： 概率是已知模型和参数，推数据。统计是已知数据，推模型和参数
1. 概率：已知一个模型和参数，预测模型产生结果的特性（均值、方差等）。比如，我想研究养花（模型），然后想好了买啥化，怎么养（参数），最后这花养的到底怎么样（结果）
2. 统计：利用数据推断模型的和参数。我有很多花，想根据品相判断咋样的。
$P(x| \theta)$ : $x$ 表示一个具体的数据， $\theta$ 表示模型的参数。
1. 如果 $\theta$ 已知， $x$ 是变量，这个叫做概率函数
2. 如果 $x$ 已知， $\theta$ 是变量，这个叫做似然函数
似然的本质是说，利用已知样本的信息，得到最大概率导致这些样本出现的模型参数。比如，我扔10次硬币，得到一组数据（ $x_0$ ），结果6次正面朝上，那根据最大似然，我模型的参数是最有可能得到6次正面朝上的参数，即 $f(x_0, \theta) = \theta^6(1-\theta)^4$ ,
我就求 $\theta$ 使这个函数的值最大就行. ，即 $\theta=0.6$

最大后验

有人说，硬币正面朝上应该是0.5的概率，这就是我们引入了先验的思想。
最大似然是求 $\theta$ 使得 $P(x_0 | \theta)$ 最大。最大后验是求的 $\theta$ 使得 $P(x_0 | \theta) p(\theta)$ 最大, 不止似然最大，而且是在先验的时候最大（这有点像正则化里加惩罚项的思想，不过正则化里是利用加法，而最大后验里是利用乘法）。即
$P (\theta | x_0) = \frac{P(x_0 | \theta) \times P(\theta)}{P(x_0)}$
这里面 $P(x_0)$ 就是样本本身，是一个已知值。当我们认为认为 $\theta$ 是均匀分布时（就是没提供啥有用的信息进来），似然=后验。

最大化似然的公式：

最大后验公式：

由于 $P (\theta | x_0) = \frac{P(x_0 | \theta) \times P(\theta)}{P(x_0)}$ 中的 $P(x_0)$ , 在给定任意的 $\theta$ 时总是常数，对 $\theta_{MAP}$ 没有任何影响，所以不影响求极值。最大化最大后验的公式为：

因此最大化后验就是在最大化似然函数之上加了一个先验分布，所以当先验为均匀分布时（也就是信息确实），两者相等。

经验风险最小化和结构风险最小化

这个写的好

经验风险最小化与结构风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低；而结构风险最小化是在经验风险最小化的基础上约束模型的复杂度，使其在训练数据集的损失降到最低的同时，模型不至于过于复杂，相当于在损失函数上增加了正则项，防止模型出现过拟合状态。这一点也符合奥卡姆剃刀原则：如无必要，勿增实体。

经验风险最小化可以看作是采用了极大似然的参数评估方法，更侧重从数据中学习模型的潜在参数，而且是只看重数据样本本身。这样在数据样本缺失的情况下，很容易管中窥豹，模型发生过拟合的状态；结构风险最小化采用了最大后验概率估计的思想来推测模型参数，不仅仅是依赖数据，还依靠模型参数的先验假设。这样在数据样本不是很充分的情况下，我们可以通过模型参数的先验假设，辅助以数据样本，做到尽可能的还原真实模型分布。

信息熵

信息熵的定义：
$H(X) = - E_{x \backsim p}[\log p(x)] = - \sum_i P(x_i) \log P(x_i) = - \int p(x) \log p(x)dx$
香农熵的本质是香农信息量 $\log(\frac{1}{p})$ 的期望，代表了一个系统的不确定性，信息熵越大，不确定性越大。 $P$ 是一个事件的概率，概率越大，不确定性越小。

交叉熵

$p$ 为真实分布， $q$ 为非真实分布，交叉熵越低，意味着 $q$ 约接近 $p$
$H(p, q) =- E_{x \backsim p}[\log q(x)] = -\sum_x p(x) \log q(x) = - \int p(x) \log q(x)dx$

相对熵（KL散度）

衡量两个分布之间的差异，相对熵就是交叉熵减去信息熵
$D_{KL}(p || q) = E_{x \backsim p}[\log \frac{p(x)}{q(x)}] = - \sum_i p(x) \log \frac{q(x)}{p(x)} = H(p,q)-H(p)$

互信息

互信息在信息论和机器学习中非常重要，其可以评价两个分布之间的距离，这主要归因于其对称性，假设互信息不具备对称性，那么就不能作为距离度量。即相对熵，由于不满足对称性，故通常说相对熵是评价分布的相似程度，而不会说距离。
互信息的定义：一个随机变量由于已知另一个随机变量而减少的不确定性。
$I(X,Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} = H(X) - H(X|Y) = H(Y) - H(Y |X)$

联合熵

$H(X, Y) = - \sum_{x \in X}\sum_{y \in Y}p(x, y)\log p(x, y)$

条件熵

条件熵的定义为：在X给定条件下，Y的条件概率分布的熵对X的数学期望。

$H(Y | X) = E_{x \backsim p} [H(Y | X = x)] = \sum_{i=1}^n p(x) H(Y| X=x)$
$= - \sum_{i=1}^n p(x) \sum_{j=1}^m p(y|x) \log p(y|x) = - \sum_{i=1}^n \sum_{j=1}^m p(x,y)\log p(y|x)$
因此， $H(X| Y) = H(X,Y) - H(Y)$

变分推断

慢慢学。。。

一些数学知识的记录
机器学习菜鸟，记录一些数学笔记，方便自己阅读和理解。期望E的下标地址一[https://www.zhihu.c...
机器学习
昨天自己画时间了解了一下机器学习所需要的一些数学知识和python所需要的一些库的安装好和运用。数学知识主要是需...
具备哪些条件学习大数据开发更容易？
具备哪些条件学习大数据开发更容易？1. 数学知识数学知识是数据分析师的基础知识。对于初级数据分析师，了解一些描...
Android 水平仪开发
前言此文仅记录，涉及到较多数学知识，没有原理解析。效果代码 Activity LevelView 参考 h...
学习大数据开发的前提是什么？
1.数学知识数学知识是数据分析师的基础知识。对于初级数据分析师，了解一些描述统计相关的基础内容，有一定的公式计...
大数据基础知识储备
新手学习大数据需要具备基础一数学知识数学知识是数据分析师的基础知识。对于初级数据分析师，了解一些描述统计相关的基础...
魔方中的一些数学知识
魔方中的数学问题主要涉及组合数学、线性代数、群论。关系最密切的是群论。如果你尝试着玩过魔方，你会发现，无论怎么转...
机器学习 To-do list
这里用来记录自己机器学习的自学安排。详细的内容后续更新。进度会每天更新。 1，数学知识回顾：导数到梯度：梯度下降...
生活中的数学
一、数学知识在人们生活中的应用生活中的数学知识最基本应用是在人们的衣、食、住、行等四个方面。 (一)数学知识在...
数学排位赛-2021-02-16
数学知识，老师课堂讲授是主要的形式；去培训班学数学知识，家长给孩子讲解数学知识，偶尔几次可以，经常做就得不偿失了。...

一些数学知识的记录

期望E的下标

期望的一些公式

条件分布

条件期望

先验、后验、似然和贝叶斯

最大似然

最大后验

最大化似然的公式：

最大后验公式：

经验风险最小化和结构风险最小化

信息熵

交叉熵

相对熵（KL散度）

互信息

联合熵

条件熵

变分推断

相关文章

一些数学知识的记录

机器学习

具备哪些条件学习大数据开发更容易？

Android 水平仪开发

学习大数据开发的前提是什么？

大数据基础知识储备

魔方中的一些数学知识

机器学习 To-do list

生活中的数学

数学排位赛-2021-02-16

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读