ARTICLE

GMM

GMM(广义矩估计,Generalized Method of Moments) 广义矩估计(GMM)是计量经济学中最为通用的参数估计框架之一,由 Lars Peter Hansen 于 1982 年在 Econometrica 上正式提出,并因此获得 2013 年诺贝尔经济学奖。GMM 的核心思想是:当经济理论给出一组总体矩条件(moment condit

浏览 0 更新 2025-11-08

GMM(广义矩估计,Generalized Method of Moments)

广义矩估计(GMM)是计量经济学中最为通用的参数估计框架之一,由 Lars Peter Hansen 于 1982 年在 Econometrica 上正式提出,并因此获得 2013 年诺贝尔经济学奖。GMM 的核心思想是:当经济理论给出一组总体矩条件(moment conditions)时,可以通过最小化样本矩的加权二次型来获得参数的一致估计。GMM 并不要求完全指定分布形式(如极大似然估计),因此具有极强的半参数特性和广泛的适用性。

基本框架与矩条件

设经济理论蕴含 rr 个总体矩条件:

E[g(zi,θ0)]=0\mathbb{E}[ \, g(\mathbf{z}_i, \boldsymbol{\theta}_0) \, ] = \mathbf{0}

其中 zi\mathbf{z}_i 为第 ii 个观测的随机向量,θ0ΘRk\boldsymbol{\theta}_0 \in \Theta \subseteq \mathbb{R}^k 为待估参数的真实值g(,):Rdz×ΘRrg(\cdot, \cdot): \mathbb{R}^{d_z} \times \Theta \to \mathbb{R}^r 为矩函数向量。这 rr 个矩条件构成了识别和估计 θ\boldsymbol{\theta} 的基础。

根据 rrkk 的关系,存在三种情形:

  • r<kr < k:参数不可识别(矩条件不足)。
  • r=kr = k:恰好识别,即为经典的矩法估计(Method of Moments)。
  • r>kr > k过度识别(overidentified),这是 GMM 最有价值的场景——有比所需更多的矩条件可用,需要以最优方式加权组合。

估计原理

样本矩定义为:

gˉn(θ)=1ni=1ng(zi,θ)\bar{g}_n(\boldsymbol{\theta}) = \frac{1}{n} \sum_{i=1}^{n} g(\mathbf{z}_i, \boldsymbol{\theta})

由于在有限样本下 gˉn(θ)\bar{g}_n(\boldsymbol{\theta}) 不可能精确为零(尤其是 r>kr > k 时),GMM 通过最小化一个二次型来寻找估计量:

θ^GMM=argminθΘgˉn(θ)Wngˉn(θ)\hat{\boldsymbol{\theta}}_{\text{GMM}} = \arg\min_{\boldsymbol{\theta} \in \Theta} \quad \bar{g}_n(\boldsymbol{\theta})' \, \mathbf{W}_n \, \bar{g}_n(\boldsymbol{\theta})

其中 Wn\mathbf{W}_n 是一个 r×rr \times r正定权重矩阵。不同的 Wn\mathbf{W}_n 产生不同的 GMM 估计量,但其一致性不依赖于 Wn\mathbf{W}_n 的具体形式(只要它依概率收敛到某个正定矩阵)。

最优权重矩阵与有效性

尽管任何正定 Wn\mathbf{W}_n 都产生一致估计,但估计量的渐近方差取决于 Wn\mathbf{W}_n 的选择。Hansen 最优权重为:

Wn=S^1,S=limnVar ⁣[ngˉn(θ0)]\mathbf{W}_n^* = \hat{\mathbf{S}}^{-1}, \quad \mathbf{S} = \lim_{n \to \infty} \operatorname{Var}\!\left[ \sqrt{n} \, \bar{g}_n(\boldsymbol{\theta}_0) \right]

S\mathbf{S} 是样本矩的长期方差-协方差矩阵(long-run covariance matrix)。使用最优权重后,GMM 估计量在渐近意义上达到最小方差,被称为最优 GMM有效 GMM

实际操作中通常采用两步 GMM(two-step GMM):

  1. 第一步:使用任意正定矩阵(如单位矩阵 Ir\mathbf{I}_r)获得初始一致估计 θ^(1)\hat{\boldsymbol{\theta}}^{(1)}
  2. 第二步:用 θ^(1)\hat{\boldsymbol{\theta}}^{(1)} 一致估计 S\mathbf{S},构造 W^n=S^1\hat{\mathbf{W}}_n^* = \hat{\mathbf{S}}^{-1},再求解最终估计 θ^(2)\hat{\boldsymbol{\theta}}^{(2)}

此外,还有迭代 GMM(iterated GMM)和连续更新 GMM(continuously updated GMM, CUE),后者将权重矩阵视为参数的函数,在目标函数中同时优化。

渐近性质

在正则条件下(矩条件可微、参数可识别、中心极限定理适用),GMM 估计量具有如下渐近性质:

一致性θ^GMMpθ0\hat{\boldsymbol{\theta}}_{\text{GMM}} \xrightarrow{p} \boldsymbol{\theta}_0

渐近正态性

n(θ^GMMθ0)dN(0,V)\sqrt{n} (\hat{\boldsymbol{\theta}}_{\text{GMM}} - \boldsymbol{\theta}_0) \xrightarrow{d} \mathcal{N}(\mathbf{0}, \mathbf{V})

其中渐近方差为:

V=(GWG)1GWSWG(GWG)1\mathbf{V} = (\mathbf{G}' \mathbf{W} \mathbf{G})^{-1} \mathbf{G}' \mathbf{W} \mathbf{S} \mathbf{W} \mathbf{G} (\mathbf{G}' \mathbf{W} \mathbf{G})^{-1}

G=E[g(zi,θ0)/θ]\mathbf{G} = \mathbb{E}[\partial g(\mathbf{z}_i, \boldsymbol{\theta}_0) / \partial \boldsymbol{\theta}'] 是期望梯度矩阵。当使用最优权重 W=S1\mathbf{W} = \mathbf{S}^{-1} 时,方差简化为 V=(GS1G)1\mathbf{V} = (\mathbf{G}' \mathbf{S}^{-1} \mathbf{G})^{-1},即为半参数效率界

过度识别检验:J 检验

r>kr > k 时,可以利用过度识别约束来检验模型设定的正确性。Hansen 的 J 统计量(也称 Sargan-Hansen 检验)定义为:

J=ngˉn(θ^)S^1gˉn(θ^)dχrk2J = n \cdot \bar{g}_n(\hat{\boldsymbol{\theta}})' \, \hat{\mathbf{S}}^{-1} \, \bar{g}_n(\hat{\boldsymbol{\theta}}) \xrightarrow{d} \chi^2_{r - k}

在原假设"所有矩条件均正确成立"下,JJ 渐近服从自由度为 rkr-k卡方分布。显著的 JJ 值意味着至少部分矩条件被数据拒绝,暗示模型设定可能存在问题。该检验是 GMM 框架下模型诊断的核心工具。

与其它估计方法的联系

GMM 框架具有极强的包容性——许多经典估计量都可视为 GMM 的特例:

  • 普通最小二乘法(OLS):在经典线性回归 yi=xiβ+εiy_i = \mathbf{x}_i'\boldsymbol{\beta} + \varepsilon_i 中,矩条件 E[xi(yixiβ)]=0\mathbb{E}[\mathbf{x}_i (y_i - \mathbf{x}_i'\boldsymbol{\beta})] = \mathbf{0} 导出的 GMM 估计量恰为 OLS。当 r=kr = k 时权重矩阵无关。
  • 工具变量(IV / 2SLS):当 E[xiεi]0\mathbb{E}[\mathbf{x}_i \varepsilon_i] \neq \mathbf{0} 但存在工具变量 zi\mathbf{z}_i 满足 E[ziεi]=0\mathbb{E}[\mathbf{z}_i \varepsilon_i] = \mathbf{0} 时,矩条件 E[zi(yixiβ)]=0\mathbb{E}[\mathbf{z}_i (y_i - \mathbf{x}_i'\boldsymbol{\beta})] = \mathbf{0} 导出的 GMM 即为两阶段最小二乘法(2SLS)。
  • 极大似然估计(MLE):MLE 的一阶条件 E[lnf(zi,θ)/θ]=0\mathbb{E}[\partial \ln f(\mathbf{z}_i, \boldsymbol{\theta}) / \partial \boldsymbol{\theta}] = \mathbf{0} 本身就是矩条件,因此 MLE 可视为使用得分函数(score)作为矩函数的恰好识别 GMM。

应用领域

GMM 在现代实证经济学中无处不在:

  1. 宏观经济学:估计 Euler 方程(消费平滑)、实际经济周期模型中的结构性参数。Hansen 和 Singleton(1982)使用 GMM 估计基于消费的资产定价模型,是最早的经典应用之一。
  2. 金融学:估计资产定价模型中的风险溢价参数、随机贴现因子的矩条件。
  3. 劳动经济学:处理内生性问题的面板数据 GMM,尤其是动态面板模型。
  4. 产业组织:需求估计中处理价格内生性(BLP 方法的内层循环)。

差分 GMM 与系统 GMM

面板数据分析中,Arellano 和 Bond(1991)提出的差分 GMM 是 GMM 框架的重要扩展。对于动态面板模型:

yit=αyi,t1+xitβ+ηi+εity_{it} = \alpha y_{i,t-1} + \mathbf{x}_{it}'\boldsymbol{\beta} + \eta_i + \varepsilon_{it}

其中 ηi\eta_i 为不可观测的个体固定效应。一阶差分消除 ηi\eta_i 后,Δyi,t1\Delta y_{i,t-1}Δεit\Delta \varepsilon_{it} 相关,可使用滞后水平值作为差分方程的工具变量。Blundell 和 Bond(1998)进一步提出系统 GMM,将水平方程和差分方程联合估计,显著提高了效率,尤其在 α1\alpha \to 1单位根附近)时具有更好的有限样本表现。

注意事项与局限

尽管 GMM 功能强大,但在实际应用中也需谨慎:

  • 弱工具变量问题:当工具变量与内生变量相关性较弱时,GMM 估计量可能严重有偏,且 J 检验的功效降低。Stock 和 Yogo(2005)提供了弱工具变量的诊断标准。
  • 过多矩条件:过多的矩条件会降低有限样本下的估计精度("many instruments"问题),需要权衡信息量与估计精度。
  • 权重矩阵估计:在有限样本下,最优权重矩阵 S\mathbf{S} 的估计不确定性可能影响推断,CUE 估计量对此具有一定稳健性。
  • 局部识别问题:当目标函数在参数空间中出现多个局部最小值时,需要适当的全局优化策略。

GMM 方法论的出现深刻改变了实证经济学的研究范式,使研究者能够基于经济理论给出的有限矩约束(而非完整的分布假设)来估计模型参数并进行统计推断。时至今日,它仍然是计量经济学最活跃的研究领域之一,其扩展——包括经验似然(Empirical Likelihood)、广义经验似然(GEL)等——持续推动着半参数推断方法的前沿。