数学建模系列笔记3：预测和相关分析

作者: Cache_wood | 来源:发表于2022-02-24 22:30 被阅读0次

@[toc]

3-3-1 马尔科夫链模型

马尔科夫性

用来描述一种特殊的，定义在某状态空间S上的随机变量序列{Xn},它满足性质
$P(X_{n+1 = E_{n+1}}|X_1 = E_1,X_2 = E_2,…,X_n = E_n) = P(X_{n+1} = E_{n+1}|X_n=E_n)$
将来的状态只与现在有关，而与过去相互独立。
马尔科夫链Markov Chain：是具有马尔科夫性的并且状态离散的随机过程。

圆圈：状态

箭头：可能的状态转换

权值：状态转移概率，每一个状态只和它的前一步状态有关
马尔科夫链模型

3-4-1 灰色预测模型

灰色系统：部分信息已知，部分信息未知的“小样本，贫信息“的不确定性系统。通过对部分一直信息的生成、开发去了解、认识现实世界，实现对系统运行行为和演化规律的正确把握和描述。
灰色系统做预测的序列需满足的条件“
1. 数据量小，一般7-15个数据
2. 数据的分布不详或不服从正态分布
3. 数据具有指数趋势
4. GM（1,1）模型
灰色系统 grey model GM(1,1)模型是根据系统中已知的多种因素的综合数据，将此数据的时间序列按微分方程拟合去毕竟上述时间序列所描述的动态过程，进而向后推导，达到预测目的。

这样拟合得到的模型是时间序列的一阶微分方程，因此简记为GM(1,1)模型。
$令 X^{(0)}为原始序列，\\ X^{(0)} = (x^{(0)}(1),x^{(0)}(2),…,x^{(0)}(n))\\ X^{(1)}为X^{(0)}的1-AGO序列\\ x^{(1)}(k) = \sum_{i=1}^k x^{(0)}(i),k = 1,2,…,n$

$令 X^{(1)}为原始序列，\\ X^{(1)} = (x^{(1)}(1),x^{(1)}(2),…,x^{(1)}(n))\\ X^{(0)}为X^{(1)}的1-IAGO序列\\ x^{(0)}(k) = x^{(1)}(k)-x^{(1)}(k-1),规定x^{(1)}(0) = 0$

$IAGO \quad X^{(1)} = IAGO(AGO \quad X^{(0)}) = X^{(0)}$
1. 建立GM(1,1)的微分方程模型
令 $z^{(1)}$ 为 $x^{(1)}$ 的紧邻均值生成序列：
$z^{(1)}(k) = \frac{x^{(1)}(k)+x^{(1)}(k-1)}{2}\\ 则可建立GM(1,1)的微分方程模型为：\\ x^{(0)}(k)+az^{(1)}(k) = b$
1. 构造数据矩阵B,计算参数
利用最小二乘估计，得 $\hat{\alpha} = (a,b)^T = (B^T B)^{-1} B^T Y_n$
1. 求解微分方程
  
  第二步建立的微分方程相应的白化方程为：
  $\frac{dx^{(1)}}{dt}+ax^{(1)} = b\\ 解得:\hat{x}^{(1)}(k+1) = [x^{(0)}(1)-\frac{b}{a}]e^{-ak}+\frac{b}{a}$
2. 得到预测方程
  $\hat{x}^{(0)}(k+1) = \hat{x}^{(1)}(k+1)-\hat{x}^{(1)}(k)$
3. GM(1,1)模型检验：残差检验和后验差检验
拓展的GM模型
1. 新陈代谢的GM模型
  
  思想：用最新的数据预测不远的未来
  
  方法：加一个新数据，同时去掉一个旧数据
2. 残差修正的GM模型
  
  问题：若后五年数据预测与实际差距越来越大（指数趋势越来越不明显）
  
  方法：预测值 = 利用原始数据做出的GM模型的预测值 - 利用残差数据做出的GM模型的预测值

3-5-1 人工神经网络

人工神经网络：由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。

BP神经网络：反向传播BackPropagation网络，是一种多层前向网络，采用最小均方差学习方式。这是一种最广泛应用的网络，可以用作分类、聚类、预测等。

算法概括

对权系数 $w_{ij}$ 直初值：对各层的权系数 $w_{ij}$ 置一个较小的非零随机数
输入一个样本 $x = (x_1,x_2,…,x_n,1)$ ,以及对应期望输出 $y = (y_1,y_2,…,y_n)$
计算各层的输出
求各层的学习误差
修正权系数 $w_{ij}$ 和阈值
当求出了各层各个权系数之后，可按给定品质指标判别是否满足要求。如果满足要求，则算法结束；如果未满足要求，则返回“3”执行。

产生误差的可能原因：

存在异常点
网络结构问题：隐层个数选择，传递函数选取

4-1-1 关联分析

皮尔逊相关系数
1. 两变量的总体服从正态分布
2. 样本容量较大
3. 变量必须是成对数据
Spearman等级相关系数的适用条件
1. 对变量总体分布、样本容量不作要求
2. 变量必须是成对数据
3. 适用有序数据
$r_{SP} = 1-\frac{6\sum_{i=1}^n d_i^2}{n(n^2-1)}$

其中n为样本量，di为两组数据的等级之差
kendall秩相关系数
1. 同Speraman等级相关系数
2. 适用有序分类变量
  $r_K = \frac{2(N_c - N_d)}{n(n-1)}$
  其中n为样本量，N_c为同向数对的数目，N_d为反向数对的数目

三种相关系数的异同点

相同点：测量两变量的相关程度和变化方向，取值范围相同
不同点：
1. pearson相关系数适用于正态分布的总体，连续性数据的变量，度量变量之间线性相关程度，是参数统计方法
2. Spearman与Kendall相关系数对样本容量、总体分布不作要求，是非参数统计方法
3. Spearman适用于有序数据，Kendall适用分类数据

4-1-2 独立性检验

分析按两个或多个特征分类的频数数据，这种数据称为交叉分类数据，一般以表格的形式给出，这种表格称为列联表RXC
检验过程
1. $H_0:A,B独立 p_{ij} = p_i p_j,i=1,2,…,r,j = 1,2,…,c$
  
  $H_1:A,B之间有关系$
2. 检验统计量
  $\chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(n_{ij}-n\hat{p}_{ij})^2}{n\hat{p}_{ij}}\sim \chi^2(r-1)(c-1)$
3. 给定显著性水平 $\alpha$ ,做出统计决策

数学建模系列笔记3：预测和相关分析

3-3-1 马尔科夫链模型

3-4-1 灰色预测模型

3-5-1 人工神经网络

4-1-1 关联分析

4-1-2 独立性检验

4-2-1 通径分析

4-3-1 典型相关分析

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

想法

散文

简友广场