莫兰指数的解释:
在莫兰指数I公式中,把公式分解成为红框的三个部分。
从无到有为构建;从有到零为剖析。
既然莫兰指数公式已经为前人构建好了,作为理解学习的方向就是一个逆推理解的过程。
地理学角度引入莫兰指数
image.pngA~F六个区域的空间邻近如图,各个区域感兴趣的数据X=[x1,x2,x3,x4,x5,x6]
image.png
X总和:
X的平均数
各个数据到平均数的差值(两个数字之差可以理解为地理上的距离),如:
一般求出的有正数,也有负数。虽然负数可以表示方向相反,但在求累积距离时候正负抵消结果为零。距离和为零本身不符合距离求和要求,那么加个绝对值呢?就可以把负号去掉了呀。可计算机计算绝对值比较麻烦,于是被引入来替代绝对值计算。
如果a为距离,那么不就是a为边的正方形面积了嘛?
所以可以理解公式中的:
如果把1部分的n除下来那么3部分就是X的方差:
刚才的分析还停留在简单的统计学特性的计算上,研究背景是数据在地理学上的分布特性。那么如何体现地理学的内容呢?
image.png
再次回到这个区域分布图上,比如A区域与B、C区域相接近,但与剩余的D、E、F区域不接近。
相邻接的区域之间会有一定的联系;不相领的区域联系性不强。
对这句话的理解可以简单举个例子:上学的时候,你周围的同学和你关系会比较好,远离你桌位的同学一般很少会有联系(你跑去找远离你的同学行为为特例,在此不考虑)
所以简单的统计学不能很好的体现数据的这种地理特性,就需要考虑地理邻近关系对数据的影响。
为了体现这种地理邻近关系,需要量化这种关系,于是定制规则区域相邻近记为1,不相邻记为0;区域与区域自身的关系记为0。
相邻关系
在这种约定下,可以得到一个区域间的关系矩阵:
image.png
区域相邻近,那么就会有一天公共边;那么一条公共边两侧就分布着数据。
构造面积数学表达:
image.png
image.png把地理邻近矩阵和面积表达式联系到一块:加权
以A区域为基准研究它与其他区域的关系:
区域 | A | B | C | D | E | F |
---|---|---|---|---|---|---|
A |
同样的再分析剩余的B、C、D、E、F区域,于是得到一个由元素构成的矩阵。
方便求这些式子的和,记求和式:
那么表示区域的矩阵元素的总和可以表示为:
类比方差是由 和参与的数据总数n之比。
那么可以构建类似的考虑地理相邻关系的数据X的方差:
莫兰指数公式理解
image.png于是莫兰指数可以看成上下两个部分:
上部分(蓝框):考虑地理相邻关系的数据X的方差
下部分(红框):仅是简单的统计学关于数据X的方差
好看的莫兰指数公式
在理解中,把莫兰指数公式分成上下两个部分,于是显得公式很拥挤。在人们的印象中,分数式就是分子分母,没有什么分数嵌套分数的表达。于是,常见的莫兰指数为:
这样一整理,莫兰指数就符合分数式的标准了。这样虽然好看,计算也很简明,但也遗失了部分信息:为什么它就长成这样的呢?
个人的对公式的理解:
计算的时候采用化简后的计算式;在理解公式构建思想过程中,采用丑陋的定义式。
网友评论