美文网首页
莫兰指数:公式剖析篇(地理学角度)

莫兰指数:公式剖析篇(地理学角度)

作者: 寻松点点 | 来源:发表于2020-03-16 22:59 被阅读0次

    莫兰指数的解释:
    Moran's \ I=\frac{考虑地理相邻关系的数据X的方差} {仅是简单的统计学关于数据X的方差}

    image.png image.png

    在莫兰指数I公式中,把公式分解成为红框的三个部分。

    从无到有为构建;从有到零为剖析。

    既然莫兰指数公式已经为前人构建好了,作为理解学习的方向就是一个逆推理解的过程。

    地理学角度引入莫兰指数

    image.png

    A~F六个区域的空间邻近如图,各个区域感兴趣的数据X=[x1,x2,x3,x4,x5,x6]


    image.png

    X总和:Sum=\sum\limits_{i=1}^6{x_i}= 10.2
    X的平均数\bar x = \frac {Sum}{n}=\frac{10.2}{6}= 1.7
    各个数据x_i到平均数\bar x的差值(两个数字之差可以理解为地理上的距离),如:x_1- { \bar x}

    image.png

    一般求出的x_i- { \bar x}有正数,也有负数。虽然负数可以表示方向相反,但在求累积距离时候正负抵消结果为。距离和为零本身不符合距离求和要求,那么加个绝对值呢?就可以把负号去掉了呀。可计算机计算绝对值比较麻烦,于是(x_i- { \bar x})^2被引入来替代绝对值计算。

    如果a为距离,那么a \cdot a不就是a为边的正方形面积了嘛?
    所以可以理解公式中的:

    image.png

    如果把1部分的n除下来那么3部分就是X的方差

    \sigma^2 = { \bar x}^{2}= \frac { {\sum\limits_{i=1}^n {(x_i - \bar x)}^2 }} {n}


    刚才的分析还停留在简单的统计学特性的计算上,研究背景是数据在地理学上的分布特性。那么如何体现地理学的内容呢?


    image.png

    再次回到这个区域分布图上,比如A区域与B、C区域相接近,但与剩余的D、E、F区域不接近。

    相邻接的区域之间会有一定的联系;不相领的区域联系性不强。
    对这句话的理解可以简单举个例子:上学的时候,你周围的同学和你关系会比较好,远离你桌位的同学一般很少会有联系(你跑去找远离你的同学行为为特例,在此不考虑)

    所以简单的统计学不能很好的体现数据的这种地理特性,就需要考虑地理邻近关系对数据的影响。
    为了体现这种地理邻近关系,需要量化这种关系,于是定制规则区域相邻近记为1,不相邻记为0;区域与区域自身的关系记为0。
    相邻关系=
    \begin{equation*}w_{ij}= \end{equation*} \begin{cases}1 \quad 区域相邻\\0 \quad 区域不相领;区域自身相邻\end{cases}

    在这种约定下,可以得到一个区域间的关系矩阵:


    image.png

    区域相邻近,那么就会有一天公共边;那么一条公共边两侧就分布着数据x_i和x_i
    构造面积数学表达:
    ({x_i} - {\bar x})({x_j} - {\bar x})

    image.png

    image.png

    把地理邻近矩阵和面积表达式联系到一块:加权
    w_{ij} \cdot ( {x_i} - \bar x)({x_j} - {\bar x})

    image.png

    以A区域为基准研究它与其他区域的关系:

    区域 A B C D E F
    A 0 \cdot ({x_A} -{\bar x})({x_A} -{\bar x}) 1 \cdot ({x_A} -{\bar x})({x_B} -{\bar x}) 1 \cdot ({x_A} -{\bar x})({x_C} -{\bar x}) 0 \cdot ({x_A} -{\bar x})({x_D} -{\bar x}) 0 \cdot ({x_A}-{\bar x})({x_E} -{\bar x}) 0 \cdot ({x_A} - {\bar x})({x_F}-\bar x)

    同样的再分析剩余的B、C、D、E、F区域,于是得到一个由元素w_{ij} \cdot ( {x_i} - \bar x)({x_j} - {\bar x})构成的矩阵。

    方便求这些式子的和,记求和式:
    \sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n} w_{ij} \cdot ({x_i}-{\bar x})({x_j}-{\bar x})

    那么表示区域的矩阵元素的总和可以表示为S_0:

    S_0=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}w_{ij}

    类比方差\sigma^2是由 {\sum\limits_{i=1}^n {( {x_i} - \bar x)} \cdot {({x_i} - {\bar x})} }和参与的数据总数n之比。
    那么可以构建类似的考虑地理相邻关系的数据X的方差
    \frac{ \sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}w_{ij} \cdot ({x_i}-{\bar x})({x_j}-{\bar x}) }{\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}w_{ij} }=\frac{ \sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}w_{ij} \cdot ({x_i}-{\bar x})({x_j}-{\bar x}) }{S_0}


    莫兰指数公式理解

    image.png
    于是莫兰指数可以看成上下两个部分:
    上部分(蓝框):考虑地理相邻关系的数据X的方差
    下部分(红框):仅是简单的统计学关于数据X的方差

    好看的莫兰指数公式

    在理解中,把莫兰指数公式分成上下两个部分,于是显得公式很拥挤。在人们的印象中,分数式就是分子分母,没有什么分数嵌套分数的表达。于是,常见的莫兰指数为:
    I=\frac {n}{S_0} \cdot \frac{\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}w_{ij}(x_i-\bar x)( y_i-\bar y) }{\sum\limits_{i=1}^n {(x_i-\bar x)}^2 } =\frac{ \sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}w_{ij}(x_i-\bar x)( y_i-\bar y) }{ S^2 \cdot \sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}w_{ij}}

    这样一整理,莫兰指数就符合分数式的标准了。这样虽然好看,计算也很简明,但也遗失了部分信息:为什么它就长成这样的呢?

    个人的对公式的理解:
    计算的时候采用化简后的计算式;在理解公式构建思想过程中,采用丑陋的定义式

    相关文章

      网友评论

          本文标题:莫兰指数:公式剖析篇(地理学角度)

          本文链接:https://www.haomeiwen.com/subject/nprnehtx.html