地理加权回归 摘要
“一方水土养一方人”,其实也就是地理加权回归的核心和出发点——考虑空间关系的影响。当我们在做回归分析的时候,如果样本分布在不同的区域,而不同区域之间某些对因变量产生影响的因素差异很大(称之为:存在“空间异质性”),这个时候我们可能就需要考虑空间关系对模型的影响。引入地理加权回归。
来自
这样一来,对研究区域进行分区,然后在子区域里面进行回归分析的方法,似乎有点不完美了。因为:
一是因为在同一个区域内的所有样本点,无论它们之间是比较近还是比较远,经典线性回归模型都不会考虑距离对他们的相互影响,直接凑在一起进行计算,从全局视角看,是分区了。但是从局部视角看,依然难以避免经典线性回归的通病——没有体现地理学第一定律。
来自
具体计算的时候,我们用的是一个函数来确定权重与距离的关系:距离是自变量,权重是因变量。多长的距离对应多大的权重。这个函数,我们一般叫做“核函数”。这是一个下降的函数——距离越大,权重越小。这里先不深入讨论,知道就好。
每一个样点,都有自己的回归方程——“个个都一样”
上面说到,要“以一定距离为半径的范围内”那么这个“范围”怎样确定呢?在地理加权回归中,确定这个“范围”的半径,我们叫作“带宽”Bandwidth(这是一个非常重要的参数,直接影响整个模型的拟合效果)。至于怎么确定带宽,主要有两种方法:AIC和CV。你问我是什么?不急,我们以后再说,你只要知道确定带宽这两种方法就好了。
记住:是带宽,不是宽带
同时我们需要注意一点,带宽和核函数,是紧密相关的。一般来说带宽越大,核函数下降得越平缓,如果带宽接近无限大,那核函数就接近于一条直线——无论什么距离下,计算出来权重都是一样的。相反,带宽越小,核函数下降越陡峭。
来自
所以带宽所确定的范围,一般是小于研究区域的范围。因为如果这个范围大于研究区域的范围,那就变成了对整个范围的回归分析,任何距离下计算出来的权重都是一样的,也就变成了经典线性回归。
来自