数学基础-机器学习

作者: 南城忆往 | 来源:发表于2022-11-03 10:45 被阅读0次

导数

一个函数在某一点的导数描述了这个函数在这一点附近的变化率，也可以认为是函数在某一点的导数就是该函数所代表的曲线在这一点的切线斜率。导数值越大，表示函数在该点处的变化越大。
当函数y=f(x)在自变量x=x0上产生一个增量Δx时，函数输出值的增量Δy和自变量增量Δx之间的比值在Δx趋近与0的时候存在极限值a，那么a即为函数在x0处的导数值。
导数就是曲线的斜率，是曲线变化快慢的一个反应。
二阶导数是斜率变化的反应，表现曲线是凹凸性。
image.png
image.png

常见的导数

image.png

偏导数

在一个多变量的函数中，偏导数就是关于其中一个变量的导数而保持其它变量恒定不变。假定二元函数z=f(x,y)，点(x0,y0)是其定义域内的一个点，将y固定在y0上，而x在x0上增量Δx，相应的函数z有增量Δz=f(x0+Δx, y0) - f(x0,y0)；Δz和Δx的比值当Δx的值趋近于0的时候，如果极限存在，那么此极限值称为函数z=f(x,y)在处对x的偏导数(partial derivative)，记作：f'x(x0,y0)

image.png

梯度

梯度是一个向量，表示某一函数在该点处的方向导数沿着该方向取的最大值，即函数在该点处沿着该方向变化最快，变化率最大(即该梯度向量的模)；当函数为一维函数的时候，梯度其实就是导数

image.png

泰勒公式

Taylor(泰勒)公式是用一个函数在某点的信息描述其附近取值的公式。如果函数足够平滑，在已知函数在某一点的各阶导数值的情况下，Taylor公式可以利用这些导数值来做系数构建一个多项式近似函数在这一点的邻域中的值。
若函数f(x)在包含x0的某个闭区间[a,b]上具有n阶函数，且在开区间(a,b)上具有n+1阶函数，则对闭区间[a,b]上任意一点x，有Taylor公式如下：<f(n)(x)表示f(x)的n阶导数，Rn(x)是Taylor公式的余项，是(x-x0)n的高阶无穷小(备注：Taylor公式是一种多项式近似拟合的方式。用一个多项式的值去逼近某个函数。)

image.png

概率

概率是以假设为基础的，即假定随机现象所发生的事件是有限的、互不相容的，而且每个基本事件发生的可能性相等。一般来讲，如果在全部可能出现的基本事件范围内构成事件A的基本事件有a个，不构成事件A的有b个，那么事件A出现的概率为：P(A)=a/(a+b)
概率体现的是随机事件A发生可能的大小度量(数值)

联合概率论

表示两个事件共同发生的概率，事件A和事件B的共同概率记作：P(AB)、P(A,B)或者P(A∩B)，读作“事件A和事件B同时发生的概率”

条件概率

事件A在另外一个事件B已经发生的条件下的发生概率叫做条件概率，表示为P(A|B)，读作“在B条件下A发生的概率“，一般情况下P(A|B)≠P(A)，而且条件概率具有三个特性：非负性、可列性、可加性。
将条件概率公式由两个事件推广到任意有穷多个事件时，可以得到如下公式，假设A1，A2，....，An为n个任意事件(n≥2)，而且P(A1A2...An)>0，则：

image.png

全概率公式

样本空间Ω有一组事件A1、A2...An, 如果事件组满足下列两个条件，那么事件组称为样本空间的一个划分：

image.png

设事件{Aj}是样本空间Ω的一个划分，且P(Ai)>0，那么对于任意事件B，全概率公式为:

image.png

贝叶斯公式

image.png

设A1、A2...An是样本空间Ω的一个划分，如果对任意事件B而言，有P(B)>0，那么：

image.png

概率公式

image.png

期望

期望(mean)：也就是均值，是概率加权下的“平均值”，是每次可能结果的概率乘以其结果的总和，反映的实随机变量平均取值大小。常用符号μ表示：

image.png

方差

方差(variance)是衡量随机变量或一组数据时离散程度的度量，是用来度量随机变量和其数学期望之间的偏离程度。

image.png

标准差

标准差(Standard Deviation)是离均值平方的算术平均数的平方根，用符号σ表示，其实标准差就是方差的算术平方根。标准差和方差都是测量离散趋势的最重要、最常见的指标。标准差和方差的不同点在于，标准差和变量的计算单位是相同的，比方差清楚，因此在很多分析的时候使用的是标准差。

image.png

协方差

协方差常用于衡量两个变量的总体误差；当两个变量相同的情况下，协方差其实就是方差。如果X和Y是统计独立的，那么二者之间的协方差为零。但是如果协方差为零，那么X和Y是不相关的。

image.png

假设C为一个常数，X和Y实两个随机变量，那么协方差有性质如下所示：

image.png
协方差是两个随机变量具有相同方向变化趋势的度量：
• 若Cov(X,Y) > 0, 则X和Y的变化趋势相同；

• 若Cov(X,Y) < 0, 则X和Y的变化趋势相反；
• 若Cov(X,Y) = 0，则X和Y不相关，也就是变化没有什么相关性

协方差矩阵

对于n个随机向量(X1,X2,X3....Xn), 任意两个元素Xi和Xj都可以得到一个协方差，从而形成一个n*n的矩阵，该矩阵就叫做协方差矩阵，协方差矩阵为对称矩阵。

image.png

大数定理

大数定律的意义：随着样本容量n的增加，样本平均数将接近于总体平均数(期望μ)，所以在统计推断中，一般都会使用样本平均数估计总体平均数的值。也就是我们会使用一部分样本的平均值来代替整体样本的期望/均值，出现偏差的可能是存在的，但是当n足够大的时候，偏差的可能性是非常小的，当n无限大的时候，这种可能性的概率基本为0。大数定律的主要作用就是为使用频率来估计概率提供了理论支持；为使用部分数据来近似的模拟构建全部数据的特征提供了理论支持。

中心极限定理

中心极限定理(Central Limit Theorem)；假设{Xn}为独立同分布的随机变量序列，并具有相同的期望μ和方差为σ2，则{Yn}服从中心极限定理，且Yn为随机序列{Xn}的规范和
中心极限定理就是一般在同分布的情况下，抽样样本值的规范和在总体
数量趋于无穷时的极限分布近似于正态分布。

最大似然估计

最大似然法(Maximum Likelihood Estimation, MLE)也称为最大概似估计、极大似然估计，是一种具有理论性的参数估计方法。基本思想是：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大；一般步骤如下：

写出似然函数
对似然函数取对数，并整理
求导数
解似然方程

设总体分布为f(x,θ), {Xn}为该总体采样得到的样本。因为随机序列{Xn}独立同分布，则它们的联合密度函数为：

image.png

这里θ被看做固定但是未知的参数，反过来，因为样本已经存在，可以看做{Xn}是固定的，L(x,θ)是关于θ的函数，即似然函数；
求参数θ的值，使得似然函数取最大值，这种方法叫做最大似然估计法。

矩阵

数域F中mn个数排成m行n列，并括以圆括弧(或方括弧)的数表示成为数域F上的矩阵，通常用大写字母记作A或者Amn，有时也记作A=(aij)m*n(i=1,2…,m;j=1,2,…n)，其中aij表示矩阵A的第i行的第j列元素，当F为实数域R时，A叫做实矩阵，当F为复数域C时，A叫做复矩阵。

image.png

矩阵转置

矩阵的转置：把矩阵A的行和列互相交换所产生的矩阵称为A的转置矩阵，这一过程叫做矩阵的转置。使用AT表示A的转置

image.png

转置的运算性质：

image.png

SVD分解

奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法，可以看做是对称方阵在任意矩阵上的推广。
• 假设A为一个m*n阶实矩阵，则存在一个分解使得：

image.png

• 通常将奇异值由大到小排列，这样Σ便能由A唯一确定了。

网友评论

本文标题：数学基础-机器学习

本文链接：https://www.haomeiwen.com/subject/clnstdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数学基础-机器学习

导数

常见的导数

偏导数

梯度

泰勒公式

概率

联合概率论

条件概率

全概率公式

贝叶斯公式

概率公式

期望

方差

标准差

协方差

协方差矩阵

大数定理

中心极限定理

最大似然估计

矩阵

矩阵转置

SVD分解

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读