# 广义矩估计 (Generalized Method of Moments)
广义矩估计 (Generalized Method of Moments, GMM) 是一种在{{{计量经济学}}}和{{{统计学}}}中极为重要和应用广泛的参数估计方法。它由诺贝尔奖得主[[拉尔斯·彼得·汉森]] (Lars Peter Hansen) 在1982年的一篇开创性论文中系统地提出。GMM的核心思想是利用{{{经济理论}}}推导出的矩条件 (Moment Conditions),通过使样本矩尽可能地接近于其理论值(通常为零),来估计模型的未知参数。
GMM之所以被称为“广义”,是因为它统一和推广了许多经典的估计方法,例如{{{普通最小二乘法}}} (OLS)、{{{工具变量法}}} (IV)、以及在一定条件下与{{{最大似然估计}}} (MLE) 等价。它的强大之处在于其半参数性质:GMM通常不需要对数据生成过程的完整分布做出严格假设(例如正态分布),而只需要矩条件成立即可,因此具有很好的稳健性。
## 核心概念:矩条件
GMM的基石是矩条件。在统计学中,{{{矩}}}是衡量一个随机变量分布形态的指标(如均值、方差等)。在GMM的语境下,矩条件是指由经济模型所蕴含的,关于数据和未知参数的某些函数,其{{{期望值}}}为零。
假设我们有一个包含 $n$ 个独立同分布观测值的数据集 $\{W_1, W_2, \ldots, W_n\}$,其中 $W_i$ 是一个包含了所有相关变量的向量。我们感兴趣的是估计一个 $K \times 1$ 的未知参数向量 $\theta$。
一. 总体矩条件 (Population Moment Condition)
一个经济模型或理论通常可以导出一个由 $R$ 个方程组成的向量函数 $g(W_i, \theta)$,该函数满足如下条件:
$$ E[g(W_i, \theta_0)] = \mathbf{0} $$
其中 $\theta_0$ 是参数的真实值,$\mathbf{0}$ 是一个 $R \times 1$ 的零向量。这个等式被称为总体矩条件。它断言,在真实的参数值 $\theta_0$ 下,函数 $g(\cdot, \cdot)$ 的期望为零。这 $R$ 个方程就是GMM估计所依赖的全部信息。
示例: 假设我们想估计随机变量 $X$ 的均值 $\mu$。理论上,我们知道 $E[X_i - \mu_0] = 0$,其中 $\mu_0$ 是真实的均值。这里,参数 $\theta$ 就是 $\mu$,随机变量 $W_i$ 就是 $X_i$,而矩条件函数是 $g(X_i, \mu) = X_i - \mu$。
二. 样本矩条件 (Sample Moment Condition)
在实际研究中,我们无法观测到总体期望 $E[\cdot]$。根据{{{大数定律}}}和{{{类比原则}}} (Analogy Principle),我们可以用样本均值来近似总体期望。因此,我们将总体矩条件替换为其样本对应物:
$$ \bar{g}(\theta) = \frac{1}{n} \sum_{i=1}^{n} g(W_i, \theta) $$
这个向量 $\bar{g}(\theta)$ 被称为样本矩。GMM的目标就是寻找一个参数估计值 $\hat{\theta}$,使得样本矩 $\bar{g}(\hat{\theta})$ “尽可能地接近”零向量。
## GMM估计量的构建
如何定义“尽可能地接近”零向量?GMM通过最小化一个关于样本矩的{{{二次型}}} (Quadratic Form) 来实现这一目标。
GMM估计量 $\hat{\theta}_{GMM}$ 是最小化以下目标函数 $Q_n(\theta)$ 的解:
$$ \hat{\theta}_{GMM} = \arg\min_{\theta} Q_n(\theta) = \arg\min_{\theta} \left[ \bar{g}(\theta)' W_n \bar{g}(\theta) \right] $$
这里: * $\bar{g}(\theta)$ 是 $R \times 1$ 的样本矩向量。 * $W_n$ 是一个 $R \times R$ 的权重矩阵 (Weighting Matrix)。它必须是对称且{{{正定}}}的。这个矩阵的作用是衡量当不同矩条件无法同时满足时,对它们的偏离赋予不同的权重。
根据矩条件数量 $R$ 和待估参数数量 $K$ 的关系,可以分为三种情况:
1. 恰好识别 (Just-identified): $R = K$。 在这种情况下,我们有和未知参数数量一样多的矩条件。通常,我们可以找到一个唯一的解 $\hat{\theta}$ 使得样本矩恰好为零,即 $\bar{g}(\hat{\theta}) = \mathbf{0}$。此时,目标函数 $Q_n(\hat{\theta})$ 的最小值为0,GMM估计量的取值与权重矩阵 $W_n$ 的选择无关。这对应了经典的{{{矩估计法}}} (Method of Moments)。
2. 过度识别 (Over-identified): $R > K$。 这是GMM最常用也是最能发挥其优势的场景。我们拥有的矩条件数量超过了参数数量。一般而言,我们无法找到一个 $\hat{\theta}$ 使得所有 $R$ 个样本矩同时为零。GMM的目标就是选择一个 $\hat{\theta}$,通过权重矩阵 $W_n$ 的加权,使得样本矩的加权平方和最小。此时,权重矩阵 $W_n$ 的选择至关重要,因为它直接影响到估计量的{{{有效性}}}。
3. 不可识别 (Under-identified): $R < K$。 矩条件数量不足以确定所有参数。模型存在{{{识别问题}}},无法得到唯一的参数估计。
## 最优权重矩阵与两步GMM
在过度识别的情况下,不同的权重矩阵 $W_n$ 会得到不同的GMM估计量,尽管它们都是{{{一致}}}的,但其{{{方差}}}不同。一个自然的问题是:什么样的权重矩阵能得到方差最小(即最有效)的估计量?
Hansen (1982) 证明,最优权重矩阵 $W_{opt}$ 是样本矩的渐近方差-协方差矩阵的逆。令 $S = \text{AsyVar}(\sqrt{n} \bar{g}(\theta_0)) = E[g(W_i, \theta_0)g(W_i, \theta_0)']$,则最优权重矩阵是 $W_{opt} = S^{-1}$。
这个选择的直观理解是:我们应该给那些方差较小(信息更精确)的矩条件赋予更大的权重,而给那些方差较大(噪声更多)的矩条件赋予较小的权重。
然而,最优权重矩阵 $S^{-1}$ 依赖于未知的真实参数 $\theta_0$。这形成了一个“先有鸡还是先有蛋”的问题。为了解决这个问题,实践中通常采用两步GMM (Two-Step GMM) 估计程序:
* 第一步:选择一个任意的(但通常是简单的)权重矩阵,例如{{{单位矩阵}}} $W_n = I$,然后最小化 $Q_n(\theta)$ 得到一个初始的一致估计量 $\hat{\theta}^{(1)}$。 $$ \hat{\theta}^{(1)} = \arg\min_{\theta} \bar{g}(\theta)' I \bar{g}(\theta) $$
* 第二步:利用第一步得到的估计量 $\hat{\theta}^{(1)}$ 来构造最优权重矩阵 $S$ 的一个一致估计 $\hat{S}$: $$ \hat{S} = \frac{1}{n} \sum_{i=1}^{n} g(W_i, \hat{\theta}^{(1)}) g(W_i, \hat{\theta}^{(1)})' $$ 然后,使用这个估计出的最优权重矩阵 $\hat{W} = \hat{S}^{-1}$ 进行第二次最小化,得到最终的两步有效GMM估计量 $\hat{\theta}_{GMM}$: $$ \hat{\theta}_{GMM} = \arg\min_{\theta} \bar{g}(\theta)' \hat{S}^{-1} \bar{g}(\theta) $$
此外,还可以重复第二步,直到参数估计值收敛,这种方法被称为迭代GMM (Iterated GMM)。
## 渐近性质与假设检验
在满足一定正则性条件下(如平稳遍历性、矩条件存在且可识别、函数的连续可微性等),GMM估计量具有良好的大样本性质。
一. 渐近性质 * 一致性 (Consistency): $\hat{\theta}_{GMM}$ 依概率收敛于真实值 $\theta_0$。 * 渐近正态性 (Asymptotic Normality): $$ \sqrt{n}(\hat{\theta}_{GMM} - \theta_0) \xrightarrow{d} N(0, V_{GMM}) $$ 当使用最优权重矩阵 $W = S^{-1}$ 时,渐近方差-协方差矩阵 $V_{GMM}$ 达到其下限,形式为: $$ V_{opt} = \left( G' S^{-1} G \right)^{-1} $$ 其中 $G = E[\nabla_{\theta} g(W_i, \theta_0)]$ 是矩条件关于参数 $\theta$ 的梯度矩阵的期望。在实践中,这些量都用其样本类似物进行估计。
二. 过度识别检验 (Test of Overidentifying Restrictions)
GMM框架提供了一个非常强大的模型设定检验工具,称为过度识别检验,或J检验。在过度识别 ($R > K$) 的情况下,即使在最优估计值 $\hat{\theta}_{GMM}$ 处,样本矩 $\bar{g}(\hat{\theta}_{GMM})$ 通常也不为零。J检验的思想是:如果所有的矩条件都是正确的(即 $E[g(W_i, \theta_0)] = \mathbf{0}$),那么 $\bar{g}(\hat{\theta}_{GMM})$ 应该“接近”于零。
J统计量被定义为在最优GMM估计值处的目标函数值乘以样本量 $n$: $$ J = n \cdot Q_n(\hat{\theta}_{GMM}) = n \cdot \bar{g}(\hat{\theta}_{GMM})' \hat{S}^{-1} \bar{g}(\hat{\theta}_{GMM}) $$
在所有矩条件都有效的原假设下,J统计量渐近服从自由度为 $R - K$ 的{{{卡方分布}}} (Chi-squared distribution): $$ J \xrightarrow{d} \chi^2(R-K) $$ 自由度 $R-K$ 等于过度识别的矩条件数量。如果计算出的J统计量的值很大,对应的p值很小,那么我们就有理由拒绝原假设,认为模型的设定存在问题,即至少有一个矩条件是不成立的。
## GMM与其他估计方法的关系
GMM是一个统一的框架,许多常见的估计方法都可以视为其特例。
* 普通最小二乘法 (OLS): 对于线性模型 $y_i = x_i'\beta + \epsilon_i$,OLS的核心假设是误差项与所有解释变量正交,即 $E[x_i\epsilon_i] = 0$。这导出的矩条件为 $E[x_i(y_i - x_i'\beta)] = 0$。这里矩条件数量 $R$ 等于参数数量 $K$,是恰好识别的GMM。
* 工具变量法 (IV) 和两阶段最小二乘法 (2SLS): 当模型中存在{{{内生变量}}}时,我们引入一组{{{工具变量}}} $z_i$,其满足 $E[z_i\epsilon_i] = 0$。矩条件为 $E[z_i(y_i - x_i'\beta)] = 0$。 * 当工具变量数量等于内生变量数量时,这是恰好识别的IV估计。 * 当工具变量数量多于内生变量数量时,这是过度识别的情况。在{{{同方差}}}假设下,两步GMM估计量等价于{{{2SLS}}}估计量。而当存在{{{异方差}}}时,GMM比传统的2SLS更有效。
* 最大似然估计 (MLE): MLE的{{{一阶条件}}}要求对数似然函数关于参数的导数(即{{{得分函数}}})的样本均值为零。这个得分函数本身就可以看作是一个矩条件。对于正确设定的似然函数,MLE等价于一个恰好识别的有效GMM估计。
综上所述,GMM以其理论的深刻性、应用的广泛性和框架的灵活性,成为了现代实证分析中不可或缺的工具。它使得经济学家能够基于经济理论的较弱假设来稳健地估计模型、检验理论的正确性。