美文网首页简友广场想法心理
数学建模系列笔记4:主成分和方差分析

数学建模系列笔记4:主成分和方差分析

作者: Cache_wood | 来源:发表于2022-02-25 11:13 被阅读0次

@[toc]

4-4-1 主成分分析

  • 在若干相互关联、关系复杂的一组变量x_1,x_2,…,x_p中,找到最为关键的因素。在寻找关键因素过程中,还需要找到能够反映该组变量这个群体的主要特征。

  • 综合评价要求评价指标线性无关

  • 建立回归模型的需要
    样本点个数n与自变量的个数p满足一个不等式:n>3(p+1)

    思想原理

    原始数据是一组n维列向量组,将其进行标准化处理:
    x_j^* = \frac{x_{kj}-x_j}{s_j},k = 1,2,…,n; j = 1,2,…,p,s_j为标准差
    希望得到的形式:
    \left\{ \begin{array}{rcl} Z_1 = u_{11}x_1^*+u_{12}x_2^*+…+u_{1p}x_p^* \\ Z_1 = u_{21}x_1^*+u_{22}x_2^*+…+u_{2p}x_p^*\\ ……\\ Z_p = u_{p1}x_1^*+u_{p2}x_2^*+…+u_{pp}x_p^* \end{array}\right.\\ D(Z_i) = \lambda_i,\sum_i \lambda_i = p 且\lambda_1 \geq \lambda_2 \geq …\geq \lambda_p.
    对各u_{ij}的要求是:

  1. 使各个综合指标Z_i彼此独立或不相关

  2. 使各个综合指标Z_i所反映的各个样品的总信息等于原来p个指标x_j^*所反映的各个样品的总信息,即
    \sum D(Z_i) = \sum D(x_j^*) = p
    主成分的系数确定
    Z = UX\\ D(Z) = \begin{pmatrix} D(Z_1)&cov(Z_1,Z_2) &…& cov(Z_1,Z_p) \\ cov(Z_2,Z_1)&D(Z_2) &…& cov(Z_2,Z_p)\\ …&…&\quad &…&\\ cov(Z_p,Z_1)&cov(Z_p,Z_2) &…& D(Z_p) \end{pmatrix} \\ =\begin{pmatrix} D(Z_1)&\quad &\quad & \quad \\ \quad&D(Z_2) & \quad& \quad\\ \quad& \quad&\quad & \quad&\\ \quad& \quad & \quad& D(Z_p) \end{pmatrix}= \begin{pmatrix} \lambda_1&\quad &\quad & \quad \\ \quad&\lambda_2 & \quad& \quad\\ \quad& \quad&\quad & \quad&\\ \quad& \quad & \quad& \lambda_p \end{pmatrix}

    D(UX) = UD(X)U' = URU',R为相关系数矩阵\\ 线性代数:任何实对称矩阵都能正交相似变换成对角阵,即P^{-1}RP = \Lambda\\ 故U = P' = P^{-1},P为正交阵

4-4-2 主成分分析的应用

主成分分析计算步骤:

  1. 对原始资料矩阵进行标准化处理
  2. 计算相关稀疏矩阵R
  3. 计算R的特征值\lambda和单位正交特征向量U'
  4. 确定主成分个数,一般累积方差贡献率要超过80%
  5. 建立相应的主成分方程:Z = U'X

r(Z_i,x_j^*) =\frac{ cov(Z_i,x_j^*)}{\sqrt{DZ_i}\sqrt{Dx_j^*}} = \frac{\lambda_i u_{ij}}{\sqrt{\lambda_i}} = \sqrt{\lambda_i}u_{ij}\\ 称r(Z_i,x_j^*)为Z_i在x_j^*上的因子载荷。因子载荷的绝对值和符号可以反映主成分与原指标之间相关关系的密切程度。

后续拓展:综合评价和主成分回归

4-5-1 方差分析

使用背景:研究生产条件或试验条件的改变对产品的质量和产量有无影响。哪些因素是主要的,哪些是次要的。

方差分析:通过对试验数据进行分析,找出对该事物有显著影响的因素,个因素之间的交互作用,以及显著影响因素的最佳水平的有效方法。

因素:影响试验指标的条件

水平:因素所处的状态

单因素方差分析:试验过程中除因素A外,其他影响指标的因素都保持不变(只有随机因素存在)。任务是从试验结果推断,因素A对指标有无显著影响,即当A取不同水平时指标有无显著差别。

假设因素A有S个水平A_1,A_2,…,A_s,在水平A_j(j = 1,2,…,s)下进行了n_j(n_j>2)次独立实验,为建立数学模型,假设:

  1. 各个水平下的样本来自具有相同方差\sigma^2,均值分别为\mu_j(j=1,2,…,s)正态总体N(\mu_j,\sigma^2)

  2. 不同水平下的样本相互独立

    由于X_{ij}\sim N(u_j,\sigma^2),即有X_{ij} - u_j \sim N(0,\sigma^2),故X_{Ij} - u_j可看成随机误差,记X_ij - u_j = \varepsilon_{ij},则X_{ij}-u_j = \varepsilon_{ij} \sim N(0,\sigma^2),i=1,2,…,n_j,j=1,2,…,s

    其中u_j,\sigma^2均为未知参数

方差分析的任务:

  1. 检验S个总体的均值是否相等,即检验假设
    H_0:\mu_1 =\mu_2 = … = \mu_s\\ H_1:\mu_1,\mu_2,…,\mu_s不全相等

  2. 做出未知参数的估计

4-5-2 单因素方差分析

4-5-3 非参数检验

非参数检验 non-parametric test:又称为分布自由检验,一种与总体分布状况无关的检验方法,它依赖于总体分布的形式,应用时可以不考虑被研究的对象为何种分布以及分布是否已知。

  1. 非参数检验主要利用样本数据之间的大小比较及大小顺序,对两个或多个样本所属总体是否相同进行检验,而不对总体分布的参数如平均数、标准差等进行统计推断。

  2. 符号检验法

    设X为连续总体,其中位数即为M_e,考虑假设检验问题
    H_0:M_e = M_0, \quad H_1:M_e \ne M_0\\ 记p_+ = P\{X>M_0\},p_- = P\{X<M_0\}
    由于M_e是总体的中位数,可知当原假设成立时,p_+ = p_- = 0.5,因此上述假设检验问题等价于:
    H_0:p_+ = p_- = 0.5,\quad H_1:p_+ \ne p_-
    从总体抽取容量为n的样本X_1,X_2,…,X_n,当X_i > M_0时,记为+号;当X_i<M_0时,记为-号;当X_i = M_0,记为0.用n_+,n_-分别表示+号和-号个数。令n = n_+ + n_-

    取检验统计量S = min(n_+,n_-)

  3. Wilcoxon符号秩检验

    符合检验只考虑了分布在中位数两侧的样本数据的个数,并没有考虑中位数两侧数据分布的疏密程度的差别,这就使得符号检验的结果比较粗糙,检验功能低。

    Wilcoxon检验比单独用正负号的检验更加有效,它适用于单个样本中位数的检验,也适用于配对样本的比较检验,但并不要求样本之差服从正态分布,只要求对称分布即可。

    原理:

    设连续分布总体X服从对称分布,其中位数记为M_e,考虑假设检验问题:
    H_0:M_e = M_0,\quad H_1:M_e \ne M_0\\
    从总体X中抽取容量为n的样本X_1,X_2,…,X_n,将|X_i - M_0|,i = 1,2,…,n从小到大排序,并计算它们的秩即序号,取值相同求平均秩,根据X_i - M_0的序号将分为正|X_i - M_0|和负号组,用W^+,W^-分别表示正号组和负号组的秩和,则W^+ + W^- = n(n+1)/2

    H_0成立,则W^+, W^-取值相差不大,即min\{W^+,W^-\}不应太小,否则应认为H_0不成立。选取检验统计量W = min\{W^+,W^-\}

在这里插入图片描述

相关文章

网友评论

    本文标题:数学建模系列笔记4:主成分和方差分析

    本文链接:https://www.haomeiwen.com/subject/bxjnlrtx.html