ARTICLE

空间数据

空间数据 (Spatial Data) 空间数据 (Spatial Data) 是指在某个地理空间坐标系中记录了位置信息的数据，其核心特征是每个观测单位都附带一个明确的空间参照（如经纬度坐标、行政区划编码或相对位置）。与时间序列数据记录同一单位在不同时点的观测值不同，空间数据记录的是不同位置在同一时点（或面板结构中多个时点）的观测值。空间数据是空间计量经济学

浏览 4 更新 2025-07-15

空间数据 (Spatial Data)

空间数据 (Spatial Data) 是指在某个地理空间坐标系中记录了位置信息的数据，其核心特征是每个观测单位都附带一个明确的空间参照（如经纬度坐标、行政区划编码或相对位置）。与时间序列数据记录同一单位在不同时点的观测值不同，空间数据记录的是不同位置在同一时点（或面板结构中多个时点）的观测值。空间数据是空间计量经济学 (Spatial Econometrics) 和空间统计学 (Spatial Statistics) 的分析基础，其核心挑战在于观测值之间不再满足经典高斯-马尔可夫定理所要求的相互独立假设——地理上的邻近往往导致经济或社会变量的相关性，即空间依赖性 (Spatial Dependence)。

空间数据的分类与结构

根据观测单位的空间组织方式，空间数据通常分为三类：

点数据 (Point Data)：观测单位是空间中的离散点，每个点带有坐标和属性值。例如各个城市的 GDP 数据、空气质量监测站的 PM2.5 读数、企业的注册地址。点数据是最原始的空间数据形式，可从其中衍生出其他类型。
面数据 / 区域数据 (Areal Data / Lattice Data)：观测单位是空间上互不重叠的区域（如省、市、县、网格单元），数据聚合到区域内。中国各省份的 GDP 增长率、美国各县的犯罪率、选举中的选区投票率均属此类。面数据是空间计量经济学中最常见的分析对象，其空间邻接关系通常由空间权重矩阵定义。
地统计数据 (Geostatistical Data)：在连续空间域中采样得到的数据，观测点可以位于研究区域内的任何位置，且通常假设底层过程是空间连续的。例如土壤重金属浓度、地下水水位、大气温度场。地统计数据的核心任务包括空间插值（克里金法）和空间过程建模。

此外，当空间数据在多个时点重复观测时，形成空间面板数据 (Spatial Panel Data)，它同时包含空间维度和时间维度，分析时需同时处理空间依赖与时间依赖。

空间依赖性与空间异质性

空间数据区别于普通截面数据的两个根本特征：

空间依赖性（又称空间自相关）指的是地理位置邻近的观测值倾向于相似——正空间自相关意味着高值聚集在高值附近、低值聚集在低值附近，负空间自相关则意味着高值与低值交错分布。Tobler (1970) 将此概括为地理学第一定律（Tobler's First Law of Geography）：``All things are related, but near things are more related than distant things.'' 空间依赖性的存在使得经典 OLS 估计量可能在无偏性上不受影响，但标准误的估计会出现偏差，导致假设检验失效。用于检测空间依赖性的核心统计量是Moran's I 统计量和Geary's C 统计量。Moran's I 的定义为：

I = \frac{n}{\sum_i \sum_j w_{ij}} \cdot \frac{\sum_i \sum_j w_{ij}(x_i - \bar{x})(x_j - \bar{x})}{\sum_i (x_i - \bar{x})^2}

其中 $w_{ij}$ 为空间权重矩阵中单元 $i$ 与 $j$ 之间的权重， $n$ 为观测数量。 $I > 0$ 表示正空间自相关， $I < 0$ 表示负空间自相关， $I \approx -1/(n-1)$ 为无空间自相关时的期望值。

空间异质性 (Spatial Heterogeneity) 指的是空间过程的参数（如回归系数、方差）在不同位置存在系统性差异。表现为东西部发展模式的根本不同、城市与农村影响因素的差异等。处理空间异质性的方法包括地理加权回归 (Geographically Weighted Regression, GWR)、空间变系数模型和空间区制转换模型。

空间权重矩阵

空间权重矩阵 $W$ 是空间计量分析中最基本的概念工具，它是一个 $n \times n$ 的非负矩阵，元素 $w_{ij}$ 量化了单元 $i$ 与单元 $j$ 之间空间关系的强度。通常约定 $w_{ii} = 0$ （单元不与自身相邻），且在建模中常将 $W$ 行标准化为 $\sum_j w_{ij} = 1$ ，使得 $Wy$ 可解释为邻近单元观测值的加权平均。

常见的空间权重构造方法包括：

邻接权重 (Contiguity Weights)：若两个区域共享边界则 $w_{ij} = 1$ ，否则为 0。进一步分为 Rook 邻接（共享边）、Queen 邻接（共享边或顶点）和 Bishop 邻接（仅共享顶点）。
距离权重 (Distance-Based Weights)： $w_{ij} = 1 / d_{ij}^{\alpha}$ ，其中 $d_{ij}$ 为两点间距离， $\alpha$ 为衰减参数。也可设定距离阈值 $d_{\max}$ ，超过该阈值则权重为零。
K-近邻权重 (K-Nearest Neighbors)：每个单元与其最近的 $k$ 个邻居相连，保证每个单元拥有相同数量的邻居，适合区域面积差异悬殊的情形。
经济距离权重：基于经济变量（贸易额、GDP 差距、人力资本相似度）构建，反映引力模型式的空间交互。

空间权重矩阵的选择对结果有实质性影响，实践中应基于理论或使用模型比较准则（如 AIC、BIC）进行选择，并进行敏感性分析以检验结论的稳健性。

空间计量模型

空间数据催生了专门的计量模型族，核心的三类模型为：

空间自回归模型 (Spatial Autoregressive Model, SAR) 也称空间滞后模型：

y = \rho W y + X\beta + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2 I_n)

其中 $\rho$ 为空间自回归系数，捕捉邻近单元因变量对本单元的影响（内生交互效应）。 $\rho$ 显著不为零是空间依赖性的直接证据。OLS 直接估计 SAR 会产生联立性偏误，需使用最大似然估计（MLE）或广义矩估计（GMM）等一致估计方法。

空间误差模型 (Spatial Error Model, SEM)：

y = X\beta + u, \quad u = \lambda W u + \varepsilon

空间依赖性通过误差项的结构体现， $\lambda$ 为空间误差系数。SEM 适用于遗漏的空间变量或不可观测的空间冲击导致残差相关的情形。

空间杜宾模型 (Spatial Durbin Model, SDM)：

y = \rho W y + X\beta + W X\theta + \varepsilon

同时包含因变量的空间滞后和自变量的空间滞后（外生交互效应）， $\theta$ 捕捉邻近单元自变量的溢出效应。SDM 可视为 SAR 和 SEM 的嵌套推广，灵活性最强，已成为实证文献中的首选设定。

三种模型的关系可用 Wald 检验或似然比检验（LR Test）进行模型选择：SDM 中 $H_0: \theta = 0$ 退化为 SAR，SDM 中 $H_0: \theta + \rho\beta = 0$ 退化为 SEM。

空间数据的可视化与探索性分析

空间数据的分析通常始于探索性空间数据分析 (Exploratory Spatial Data Analysis, ESDA)，核心工具包括：

分位数地图 (Quantile Map) 与 等间隔地图：按属性值对不同区域着色，直观展示空间分布格局。
Moran 散点图：以标准化变量 $z$ 为横轴、空间滞后 $Wz$ 为纵轴，将区域分为四个象限——高高 (HH)、低低 (LL)、高低 (HL)、低高 (LH)。第一三象限对应正空间自相关（空间俱乐部趋同），第二四象限对应负空间自相关（空间离群值）。
LISA (Local Indicators of Spatial Association)：Anselin (1995) 提出的局部空间自相关指标，可识别具体的空间集聚热点（hot spots）和冷点（cold spots），并对其显著性进行推断。

应用领域与前沿方向

空间数据分析已广泛应用于以下领域：

区域与城市经济学：研究区域经济增长收敛性、城市房价的空间溢出效应、创新活动的空间集聚。例如使用空间杜宾模型分析某省 GDP 增长是否受到邻省经济增长和邻省投资水平的共同影响。
环境经济学：分析空气污染的跨区域传输、碳排放的空间格局、环境规制的策略性互动（\texttt{\texttt{竞次''或}}竞优''）。
房地产经济学：利用特征价格模型 (Hedonic Pricing) 结合空间滞后项，控制邻近房屋成交价对目标房屋估值的影响。
公共卫生：疾病发病率的空间聚类分析、医疗资源可达性的空间不平等测度。
犯罪学：犯罪热点的空间识别与警务资源配置优化。

当前方法论前沿包括：高维空间权重矩阵的正则化估计、时空面板模型的贝叶斯推断、空间网络数据（如贸易网络、交通网络）的建模，以及空间计量与机器学习（如随机森林、神经网络）的交叉融合。随着地理编码数据的爆炸式增长和高性能计算能力的提升，空间数据在经济分析中的核心地位将持续强化。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。