美文网首页想法简友广场心理
数学建模:马尔科夫决策过程

数学建模:马尔科夫决策过程

作者: Cache_wood | 来源:发表于2022-04-09 10:31 被阅读0次

    @[toc]

    设随机过程X_n(n\in T)的时间集合T = \{1,2,3,…\},状态空间 E = \{1,2,3…N\},即 X_n (n\in T) 是时间离散、状态离散的随机过程。若对任意的整数n\in T ,满足P\{X_{n+1} = x_{n+1}|X_n=x_n,…,X_0=x_0\} =P\{X_{n+1}=x_{n+1}|X_n=x_n\}。则称X_n(n\in T)为马尔可夫链,简称马氏链。上式称为过程的马尔可夫性或无后效性

    P_{ij}(n_m,n_{m+k})n_m无关,即转移概率只与出发状态、转移步数、到达状态相关
    p_{ij}(k) =p\{X(n_{m+k})=j|X(n_m)=i\},k\geq 1\\ 一步转移概率:P_{ij}(1) \leftrightarrow p_{ij}


    可以证明:k步转移概率矩阵为一步转移概率矩阵的k次幂。
    [p_{ij}(k)]_{N\times N} = [p_{ij}]^k
    若存在m为正整数,概率矩阵P的m次幂P^m 的所有元素皆为正,则P称为正规概率矩阵

    • 正则概率矩阵的这一性质很有实用价值。因为在市场占有率是达到平稳分布时,顾客(或用户)的流动将对市场占有率不起影响。即各市场主体丧失的顾客(或用户)与争取到的顾客相抵消。

    • 若马尔科夫链的一步转移概率矩阵P为正规概率矩阵,则马尔可夫链是遍历的

    • 如存在概率向量x = (x_1,x_2,…,x_n),使得概率矩阵P满足:xP = x

      则称x为P的固定概率向量(特征向量)。特别地,若x为一状态概率向量, P为状态转移概率矩阵,则称 x 为对应马尔可夫链的一个平稳分布

    若任意的i,j\in S:\lim_{m\rightarrow +\infty}p_{ij}^{(m)} = \pi_j,则称\pi = (\pi_1,\pi_2,…,\pi_N)为稳态分布。

    设存在稳态分布\pi = (\pi_1,\pi_2,…,\pi_N),则由于下式恒成立:P(k) = P(k-1)P,令k\rightarrow \infty就得\pi = \pi P

    • 若随机过程某时刻的状态概率向量为平稳分布,则称过程处于平衡状态。 一旦过程处于平衡状态,将永远处于平衡状态。
    • 对于有限状态的马尔可夫链,平稳分布必定存在。特别地,当状态转移矩阵为正规概率矩阵时,平稳分布唯一。

    例:某地区有甲、乙、丙三家药厂生产板蓝根,有1600个用户,假定在研究期间无新用户加入也无老用户退出,只有用户的转移。已知 8月份有480 户是甲厂的顾客;320 户是乙厂的顾客;800户是丙厂的顾客。9 月份,甲厂的顾客有 48 户转
    乙厂,96户转丙厂;乙厂的顾客有32户转甲厂,64户转丙厂;丙厂有的顾客有 64户转甲厂,32户转乙厂。假设顾客保持相同的流转,请预测
    (1)这三家药厂在10月和11月的顾客人数,

    (2)稳态时市场的占有率。

    从-到 合计
    336 48 96 480
    32 224 64 320
    并丙 224 32 704 800
    合计 432 304 864 1600

    状态转移概率矩阵:
    P = \left[\begin{array}{cc}0.7 & 0.1 & 0.2\\0.1& 0.7 &0.2\\0.08& 0.04 &0.88\end{array}\right]
    9月份的状态向量为(432,304,864),由
    \left(\begin{array}{cc}432& 304 & 864\end{array}\right) \left[\begin{array}{cc}0.7 & 0.1 & 0.2\\0.1& 0.7 &0.2\\0.08& 0.04 &0.88\end{array}\right] = \left[\begin{array}{cc}402\\291\\908\end{array}\right]
    可预测,10月份,甲、乙、丙三家的顾客数分别为(402,291,908)。

    同理,
    \left(\begin{array}{cc}402& 291 & 908\end{array}\right) \left[\begin{array}{cc}0.7 & 0.1 & 0.2\\0.1& 0.7 &0.2\\0.08& 0.04 &0.88\end{array}\right] = \left[\begin{array}{cc}383\\280\\937\end{array}\right]
    可预测,11月份,甲、乙、丙三厂的顾客数分别为383、280、937。

    xP=x,(P-E)^Tx^T = 0,\sum x = 1

    求得稳态分布:x^*= (0.2187,0.1563,0.6250)

    所以三家药厂在均衡时的市场占有率分别是:甲22%,乙16%,丙62%。

    相关文章

      网友评论

        本文标题:数学建模:马尔科夫决策过程

        本文链接:https://www.haomeiwen.com/subject/mmhusrtx.html