美文网首页
Mathematics

Mathematics

作者: 咚咚董dyh | 来源:发表于2022-03-21 20:43 被阅读0次

    乘法

    向量乘法,设a和b为线性无关的两个(m,)维向量(方向不相同也不相反,否则外积为0):

    • 点乘/点积/内积/标量乘(Dot Product,Inner Product, Scalar Product),a \cdot b = c为标量,即对应元素积的和,或a \cdot b = |a||b|cos\theta
    • 叉乘/叉积/外积/向量积(Cross Product, Outer Prodcut, Vector Product),a \times b = cb \times a = -cc是一个(m,)维的向量(a和b所在平面的法向量)。模长为|a \times b| = |a||b|sin\theta(构成的平行四边形的面积),方向遵守右手定则。c的坐标可用ab坐标按乘法分配律计算得到。

    向量夹角:两个向量方向之间的夹角,即将起点重合后较小的夹角,<180度。
    右手定则:在右手坐标系中,右手四指从a以向量夹角转向b时,竖起的大拇指的方向即为c的方向。
    右手坐标系:基向量x,y,z满足x \times y=z, y \times z=x, z \times x=y(反过来则得负),x \times y = y \times z = z \times x = 0

    矩阵乘法,设A为(m,n)矩阵,B为(m,n)矩阵,C为(n,o)矩阵,D为(p,q)矩阵:

    • 矩阵乘A \cdot C是一个(m,o)矩阵。
    • 按元素积(Elementwise Product)/Hadamand积A \odot DA * D是一个(m,n)矩阵。
    • 克罗内克积A \otimes D是一个(mp,nq)分块矩阵。

    矩阵A的列秩是A的线性独立的纵列的极大数目(极大线性无关组),表示为r(A)rk(A)rank(A)

    设 A 为m*n矩阵。若A 至少有一个r阶非零子式,而其所有r+1阶子式全为零,则称 r为A的秩。

    矩阵的列秩和行秩总是相等的,因此它们可以简单地称作矩阵A的秩。表示为r(A)rk(A)rank(A)。等于向量组A生成的子空间的维数。

    一个m*n的矩阵,如果秩很低(秩r远小于m,n),则它可以拆成一个m*r矩阵和一个r*n矩阵之积(类似于SVD分解)。后面这两个矩阵所占用的存储空间比原来的m*n矩阵小得多。

    Norm

    Norm(范数)是向量和矩阵上的概念。标量可以作为向量的特例,即标量的绝对值。Lp Norm常写作p-Norm。

    向量范数,对于向量x = [x_1,x_2,...x_m]

    ||x||_p = (\sum_{i=1}^m |x_i|^p)^{\frac{1}{p}}

    • L0 Norm,向量非零元素的个数。0的0次幂为0,非零数的0次幂为1。
    • L1 Norm,向量元素绝对值之和。用于计算曼哈顿距离,绝对值误差等。表示点x到原点的曼哈顿距离。
    • L2 Norm,Euclid Norm(欧几里得范数),向量元素绝对值的平方和再开方。用于计算欧式距离,平方误差/均方误差(MSE)等。表示点x到原点的欧氏距离。
    • L\infty Norm,向量元素绝对值的最大值。当p趋向于正无穷时,其他元素会被绝对值最大的元素掩盖。
    • L-\infty Norm,向量元素绝对值的最小值。当p趋向于正无穷时,绝对值最小的元素的-\infty次幂最大,其他元素被掩盖。

    矩阵范数,对于矩阵A \in R^{m \times n}

    • L1 Norm,||A||_1 = \underset{j}{max} \sum_{i=1}^m |a_{i,j}| = \underset{j}{max} ||A_{:,j}||_1,列和范数,矩阵列向量元素绝对值之和(列向量的L1 Norm)的最大值。
    • L2 Norm,||A||_2 = \sqrt{\lambda_1},谱范数,\lambda_1表示A^TA的最大特征值。
    • L\infty||A||_\infty = \underset{i}{max} \sum_{j=1}^n |a_{i,j}| = \underset{i}{max} ||A_{i,:}||_1,行和范数,矩阵行向量元素绝对值之和(行向量的L1 Norm)的最大值。
    • L F Norm,||A||_F =(\sum_{i=1}^m \sum_{j=1}^n |a_{i,j}|^2)^\frac{1}{2},Frobenius Norm(斐波那契范数),矩阵元素绝对值的平方和再开方。
    • L2,1 Norm,||A||_{2,1} =\sum_{i=1}^m (\sum_{j=1}^n |a_{i,j}|^2)^\frac{1}{2} = ||A_{i,:}||_2,矩阵行向量的2-Norm之和,即矩阵先在行上2-Norm,然后在结果上1-Norm。当矩阵每行越多的元素为0时(行稀疏),L2,1 Norm约小。
    • L1,2 Norm,与L2,1类似,表示列稀疏。

    复数

    代数表示,z=a+bi,其中a为实部,b为虚部。

    坐标表示,以复平面为承载:

    • 复平面,以直角(Rectangular)坐标系/笛卡尔(Cartesian)坐标系为例,X坐标轴为实轴,Y坐标轴为虚轴。复数用(a,b)(X坐标、Y坐标)来表示,向量(a,b)称为复向量。向量模长,又称强度,|z| = \sqrt{a^2+b^2)} = \sqrt{z*z^*}
    • 复平面,以极坐标系(Polar)为例,复数用(r,\theta)(半径坐标和角坐标)来表示,模长为半径,幅角为极角。其中,模长为复向量的模长,幅角为极轴(即实轴)逆时针方向到复向量的夹角。

    除代数表示、坐标表示外还有:

    • 三角表示,z = r(cos\theta+isin\theta)。其中r为模长,\theta为幅角。
    • 指数表示,z = re^{i\theta}。根据欧拉公式e^{i\theta}=cos\theta+isin\theta。其中e^{i\theta}i\theta称为相位(Phase)。相同的复数可以有不同的相位,如e^{i2\pi}, e^{i4\pi}

    代数表示适合加减法,指数表示适合乘除法,复平面坐标表示适合理解几何意义。
    z_1=a+bi=r_1e^{i\theta_1}, z2=c+di=r_2e^{i\theta_2}复数运算的几何意义:

    • 加减法的几何意义按照向量加减来理解。
    • 复数乘法,z_1*z_2 = r_1*r_2 * e^{i(\theta_1+\theta_2)},相当于模长相乘,幅角相加,相位相加。
    • 复数除法,z_1/z_2 = r_1/r_2 * e^{i(\theta_1-\theta_2)},相当于模长相除,幅角相减,相位相减。
    • z_1*z_2^* = (a+bi)(c-di) = \frac{(a+bi)(c-di)*(c+di)}{c+di} = z_1/z_2 * |z_2|^2 = r_1*r_2 * e^{i(\theta_1-\theta_2)},相当于模长相乘,幅角相减,相位相减。

    复函数在定义域上可导,称作全纯(Holomorphic)/可解析(Analytic)

    矩阵转置

    Norm

    对于复数标量,绝对值np.abs()和Frobenius模np.linalg.norm()结果一样。对于向量/矩阵,前者为[|z_1|, ..., |z_n|],后者为\sqrt{|z_1|^2 + ... + |z_n|^2}。其中|z_n|^2 = z_n*z_n^*
    Norm and inner products in C^n

    导数和微分

    导数(derivative)和微分(differential)不同,可导(derivable)和可微(differentiable)是等价的。假设函数y = f(x),定义域都是可微函数,导数的值域是导函数f'(x),微分的值域是1-formf'(x)。给定y = f(x),导数的几种表示:
    f'(x)=y’=dy/dx=df/dx=d/dx(f)=Df(x)=Dxf(x)

    ’ (prime) 、D、d/dx看成是一种对 f 的作用,称作“微分算子”。对 f 微分表示对函数f(x)取导数。

    导数:y = f(x)(x_0,y_0)处的增量为Δx, Δy=f(x_0 + Δx) - f(x_0)(差分),若当 Δx → 0 时Δy/Δx的极限存在,则函数在x_0点可导,这个极限为在点x_0处的导数,记为f'(x0),也即f'(x0) = lim Δy / Δx = lim [ f(x_0 + Δx) - f(x_0) ] / Δx,Δx → 0,也记作y'|x=x_0

    微分:在\Delta x → 0的极限状态下,用切线段近似曲线段,有Δx, dy = f'(x)Δx,令dx = Δx, dy = f'(x)Δx(微分,是一个线性函数)。此时f'(x) = \frac{dy}{dx}

    几何意义:

    • 微分:微小的变化量,局部范围内,用线性函数近似非线性函数,用切线段近似曲线段,在数学上称为非线性函数的局部线性化。dx,dy不仅表示\Delta x, \Delta y,同时有点(x,y)的位置含义。
    • 导数:切线的斜率,表示在某点处的变化率。

    因为实数空间中不存在无穷小,即不存在点(x+dx, f(x+dx))。所以f'(x) = dy/dx不是商或分数,但有类似商的性质,如链式法则f'(x) = \frac{dy}{dx} = \frac{dy}{du}\frac{du}{dx},逆函数定理f'(y) = \frac{dx}{dy} = \frac1{\frac{dx}{dy}}

    偏微分/偏导数:多元函数有多个变量,如果函数沿着其中一个变量的方向变化,其他变量保持不变时,微分和导数就是偏微分和偏导数。

    矩阵求导

    参考矩阵求导术和速查手册“The Matrix Cookbook”。

    狄拉克delta函数

    狄拉克 delta 函数

    参考文献

    相关文章

      网友评论

          本文标题:Mathematics

          本文链接:https://www.haomeiwen.com/subject/hcwtiltx.html