ARTICLE

空间数据

空间数据 (Spatial Data) 空间数据 (Spatial Data) 是指在某个地理空间坐标系中记录了位置信息的数据,其核心特征是每个观测单位都附带一个明确的空间参照(如经纬度坐标、行政区划编码或相对位置)。与时间序列数据记录同一单位在不同时点的观测值不同,空间数据记录的是不同位置在同一时点(或面板结构中多个时点)的观测值。空间数据是空间计量经济学

浏览 4 更新 2025-07-15

空间数据 (Spatial Data)

空间数据 (Spatial Data) 是指在某个地理空间坐标系中记录了位置信息的数据,其核心特征是每个观测单位都附带一个明确的空间参照(如经纬度坐标、行政区划编码或相对位置)。与时间序列数据记录同一单位在不同时点的观测值不同,空间数据记录的是不同位置在同一时点(或面板结构中多个时点)的观测值。空间数据是空间计量经济学 (Spatial Econometrics) 和空间统计学 (Spatial Statistics) 的分析基础,其核心挑战在于观测值之间不再满足经典高斯-马尔可夫定理所要求的相互独立假设——地理上的邻近往往导致经济或社会变量的相关性,即空间依赖性 (Spatial Dependence)。

空间数据的分类与结构

根据观测单位的空间组织方式,空间数据通常分为三类:

  1. 点数据 (Point Data):观测单位是空间中的离散点,每个点带有坐标和属性值。例如各个城市的 GDP 数据、空气质量监测站的 PM2.5 读数、企业的注册地址。点数据是最原始的空间数据形式,可从其中衍生出其他类型。
  2. 面数据 / 区域数据 (Areal Data / Lattice Data):观测单位是空间上互不重叠的区域(如省、市、县、网格单元),数据聚合到区域内。中国各省份的 GDP 增长率、美国各县的犯罪率、选举中的选区投票率均属此类。面数据是空间计量经济学中最常见的分析对象,其空间邻接关系通常由空间权重矩阵定义。
  3. 地统计数据 (Geostatistical Data):在连续空间域中采样得到的数据,观测点可以位于研究区域内的任何位置,且通常假设底层过程是空间连续的。例如土壤重金属浓度、地下水水位、大气温度场。地统计数据的核心任务包括空间插值(克里金法)和空间过程建模。

此外,当空间数据在多个时点重复观测时,形成空间面板数据 (Spatial Panel Data),它同时包含空间维度和时间维度,分析时需同时处理空间依赖与时间依赖。

空间依赖性与空间异质性

空间数据区别于普通截面数据的两个根本特征:

空间依赖性(又称空间自相关)指的是地理位置邻近的观测值倾向于相似——正空间自相关意味着高值聚集在高值附近、低值聚集在低值附近,负空间自相关则意味着高值与低值交错分布。Tobler (1970) 将此概括为地理学第一定律(Tobler's First Law of Geography):``All things are related, but near things are more related than distant things.'' 空间依赖性的存在使得经典 OLS 估计量可能在无偏性上不受影响,但标准误的估计会出现偏差,导致假设检验失效。用于检测空间依赖性的核心统计量是Moran's I 统计量和Geary's C 统计量。Moran's I 的定义为:

I=nijwijijwij(xixˉ)(xjxˉ)i(xixˉ)2I = \frac{n}{\sum_i \sum_j w_{ij}} \cdot \frac{\sum_i \sum_j w_{ij}(x_i - \bar{x})(x_j - \bar{x})}{\sum_i (x_i - \bar{x})^2}

其中 wijw_{ij} 为空间权重矩阵中单元 iijj 之间的权重,nn 为观测数量。I>0I > 0 表示正空间自相关,I<0I < 0 表示负空间自相关,I1/(n1)I \approx -1/(n-1) 为无空间自相关时的期望值。

空间异质性 (Spatial Heterogeneity) 指的是空间过程的参数(如回归系数、方差)在不同位置存在系统性差异。表现为东西部发展模式的根本不同、城市与农村影响因素的差异等。处理空间异质性的方法包括地理加权回归 (Geographically Weighted Regression, GWR)、空间变系数模型和空间区制转换模型。

空间权重矩阵

空间权重矩阵 WW 是空间计量分析中最基本的概念工具,它是一个 n×nn \times n 的非负矩阵,元素 wijw_{ij} 量化了单元 ii 与单元 jj 之间空间关系的强度。通常约定 wii=0w_{ii} = 0(单元不与自身相邻),且在建模中常将 WW 行标准化为 jwij=1\sum_j w_{ij} = 1,使得 WyWy 可解释为邻近单元观测值的加权平均。

常见的空间权重构造方法包括:

  1. 邻接权重 (Contiguity Weights):若两个区域共享边界则 wij=1w_{ij} = 1,否则为 0。进一步分为 Rook 邻接(共享边)、Queen 邻接(共享边或顶点)和 Bishop 邻接(仅共享顶点)。
  2. 距离权重 (Distance-Based Weights)wij=1/dijαw_{ij} = 1 / d_{ij}^{\alpha},其中 dijd_{ij} 为两点间距离,α\alpha 为衰减参数。也可设定距离阈值 dmaxd_{\max},超过该阈值则权重为零。
  3. K-近邻权重 (K-Nearest Neighbors):每个单元与其最近的 kk 个邻居相连,保证每个单元拥有相同数量的邻居,适合区域面积差异悬殊的情形。
  4. 经济距离权重:基于经济变量(贸易额、GDP 差距、人力资本相似度)构建,反映引力模型式的空间交互。

空间权重矩阵的选择对结果有实质性影响,实践中应基于理论或使用模型比较准则(如 AIC、BIC)进行选择,并进行敏感性分析以检验结论的稳健性。

空间计量模型

空间数据催生了专门的计量模型族,核心的三类模型为:

空间自回归模型 (Spatial Autoregressive Model, SAR) 也称空间滞后模型:

y=ρWy+Xβ+ε,εN(0,σ2In)y = \rho W y + X\beta + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2 I_n)

其中 ρ\rho 为空间自回归系数,捕捉邻近单元因变量对本单元的影响(内生交互效应)。ρ\rho 显著不为零是空间依赖性的直接证据。OLS 直接估计 SAR 会产生联立性偏误,需使用最大似然估计(MLE)或广义矩估计(GMM)等一致估计方法。

空间误差模型 (Spatial Error Model, SEM)

y=Xβ+u,u=λWu+εy = X\beta + u, \quad u = \lambda W u + \varepsilon

空间依赖性通过误差项的结构体现,λ\lambda 为空间误差系数。SEM 适用于遗漏的空间变量或不可观测的空间冲击导致残差相关的情形。

空间杜宾模型 (Spatial Durbin Model, SDM)

y=ρWy+Xβ+WXθ+εy = \rho W y + X\beta + W X\theta + \varepsilon

同时包含因变量的空间滞后和自变量的空间滞后(外生交互效应),θ\theta 捕捉邻近单元自变量的溢出效应。SDM 可视为 SAR 和 SEM 的嵌套推广,灵活性最强,已成为实证文献中的首选设定。

三种模型的关系可用 Wald 检验或似然比检验(LR Test)进行模型选择:SDM 中 H0:θ=0H_0: \theta = 0 退化为 SAR,SDM 中 H0:θ+ρβ=0H_0: \theta + \rho\beta = 0 退化为 SEM。

空间数据的可视化与探索性分析

空间数据的分析通常始于探索性空间数据分析 (Exploratory Spatial Data Analysis, ESDA),核心工具包括:

  • 分位数地图 (Quantile Map)等间隔地图:按属性值对不同区域着色,直观展示空间分布格局。
  • Moran 散点图:以标准化变量 zz 为横轴、空间滞后 WzWz 为纵轴,将区域分为四个象限——高高 (HH)、低低 (LL)、高低 (HL)、低高 (LH)。第一三象限对应正空间自相关(空间俱乐部趋同),第二四象限对应负空间自相关(空间离群值)。
  • LISA (Local Indicators of Spatial Association):Anselin (1995) 提出的局部空间自相关指标,可识别具体的空间集聚热点(hot spots)和冷点(cold spots),并对其显著性进行推断。

应用领域与前沿方向

空间数据分析已广泛应用于以下领域:

  1. 区域与城市经济学:研究区域经济增长收敛性、城市房价的空间溢出效应、创新活动的空间集聚。例如使用空间杜宾模型分析某省 GDP 增长是否受到邻省经济增长和邻省投资水平的共同影响。
  2. 环境经济学:分析空气污染的跨区域传输、碳排放的空间格局、环境规制的策略性互动(\texttt{\texttt{竞次''或}}竞优'')。
  3. 房地产经济学:利用特征价格模型 (Hedonic Pricing) 结合空间滞后项,控制邻近房屋成交价对目标房屋估值的影响。
  4. 公共卫生:疾病发病率的空间聚类分析、医疗资源可达性的空间不平等测度。
  5. 犯罪学:犯罪热点的空间识别与警务资源配置优化。

当前方法论前沿包括:高维空间权重矩阵的正则化估计、时空面板模型的贝叶斯推断、空间网络数据(如贸易网络、交通网络)的建模,以及空间计量与机器学习(如随机森林神经网络)的交叉融合。随着地理编码数据的爆炸式增长和高性能计算能力的提升,空间数据在经济分析中的核心地位将持续强化。