ARTICLE

组内估计量

组内估计量 (Within Estimator) 组内估计量 (Within Estimator),亦称固定效应估计量 (Fixed Effects Estimator),是面板数据计量经济学中用于估计固定效应模型的核心方法。其基本思想是通过组内变换 (Within Transformation) 消除不随时间变化的个体异质性,从而获得回归系数的一致估计。

浏览 0 更新 2025-12-15

组内估计量 (Within Estimator)

组内估计量 (Within Estimator),亦称固定效应估计量 (Fixed Effects Estimator),是面板数据计量经济学中用于估计固定效应模型的核心方法。其基本思想是通过组内变换 (Within Transformation) 消除不随时间变化的个体异质性,从而获得回归系数的一致估计。

模型设定与识别问题

考虑标准的面板数据线性模型:

yit=xitβ+αi+εit,i=1,,N,t=1,,Ty_{it} = \mathbf{x}_{it}'\boldsymbol{\beta} + \alpha_i + \varepsilon_{it}, \quad i = 1, \ldots, N, \quad t = 1, \ldots, T

其中 yit y_{it} 为个体 i i 在时期 t t 的被解释变量,xit \mathbf{x}_{it} 为解释变量向量,β \boldsymbol{\beta} 为待估参数向量。αi \alpha_i 表示个体固定效应 (Individual Fixed Effect),捕捉个体 i i 不随时间变化的所有不可观测特征(如能力、文化、制度等)。εit \varepsilon_{it} 为特异误差项,满足严格外生性假设 E[εitxi1,,xiT,αi]=0 \mathbb{E}[\varepsilon_{it} \mid \mathbf{x}_{i1}, \ldots, \mathbf{x}_{iT}, \alpha_i] = 0

αi \alpha_i xit \mathbf{x}_{it} 相关,则混合普通最小二乘 (Pooled OLS) 估计量将因遗漏变量偏误而不一致。组内估计量正是为解决这一问题而设计。

组内变换与估计

组内估计量的核心操作是时间均值离差变换:对每个个体 i i ,将所有变量减去其时间均值,从而消去 αi \alpha_i 。定义个体时间均值:

yˉi=1Tt=1Tyit,xˉi=1Tt=1Txit,εˉi=1Tt=1Tεit\bar{y}_i = \frac{1}{T} \sum_{t=1}^{T} y_{it}, \quad \bar{\mathbf{x}}_i = \frac{1}{T} \sum_{t=1}^{T} \mathbf{x}_{it}, \quad \bar{\varepsilon}_i = \frac{1}{T} \sum_{t=1}^{T} \varepsilon_{it}

对原方程取时间平均后相减,得到组内变换后的方程:

yityˉi=(xitxˉi)β+(εitεˉi)y_{it} - \bar{y}_i = (\mathbf{x}_{it} - \bar{\mathbf{x}}_i)'\boldsymbol{\beta} + (\varepsilon_{it} - \bar{\varepsilon}_i)

由于 αi \alpha_i 不随时间变化,它在相减中恰好被消除。记 y¨it=yityˉi \ddot{y}_{it} = y_{it} - \bar{y}_i x¨it=xitxˉi \ddot{\mathbf{x}}_{it} = \mathbf{x}_{it} - \bar{\mathbf{x}}_i ,则组内估计量为对变换后数据进行 OLS 回归所得:

β^FE=(i=1Nt=1Tx¨itx¨it)1i=1Nt=1Tx¨ity¨it\hat{\boldsymbol{\beta}}_{\text{FE}} = \left( \sum_{i=1}^{N} \sum_{t=1}^{T} \ddot{\mathbf{x}}_{it} \ddot{\mathbf{x}}_{it}' \right)^{-1} \sum_{i=1}^{N} \sum_{t=1}^{T} \ddot{\mathbf{x}}_{it} \ddot{y}_{it}

与 FWL 定理的联系

组内估计量可以视为 FWL定理 的直接应用。在面板设定中,个体固定效应等价于为每个个体引入一个虚拟变量。根据 FWL 定理,先将被解释变量和解释变量分别对个体虚拟变量回归取残差,再对残差进行回归,所得系数与完整虚拟变量最小二乘法 (LSDV) 完全相同。组内变换正是这一步"对个体虚拟变量取残差"的代数简化——直接减去组内均值即等价于剔除所有个体虚拟变量的影响。

统计性质与推断要点

在严格外生性假设下,组内估计量是一致性和渐近正态的。当 N N \to \infty T T \to \infty 时(在适当正则条件下),β^FE \hat{\boldsymbol{\beta}}_{\text{FE}} 收敛于真实参数。

实际推断中需注意以下要点:

  • 自由度修正:组内变换消耗了 N N 个自由度(每个个体的均值被估计),因此误差方差的无偏估计应使用 NTNK NT - N - K 而非 NTK NT - K 作为分母。多数计量软件默认处理此修正,但手动计算时不可忽略。
  • 标准误的聚类调整:面板数据中同一体不同期观测往往存在序列相关,建议使用聚类稳健标准误(在个体层面聚类)以避免推断偏误。
  • 时不变变量的不可识别性:任何不随时间变化的解释变量(如性别、种族、出生地)在组内变换中会被一并消除,其系数无法通过固定效应模型识别。若需估计此类变量的效应,需借助随机效应模型或 Hausman-Taylor 型估计量。

与一阶差分估计量的比较

除组内变换外,消除固定效应的另一常用方法是一阶差分 (First Differencing):对相邻两期取差分 Δyit=yityi,t1 \Delta y_{it} = y_{it} - y_{i,t-1} 。当 T=2 T = 2 时,组内估计量与一阶差分估计量完全等价;当 T>2 T > 2 且特异误差满足经典独立同分布假设时,组内估计量比一阶差分估计量更有效。但若误差项存在单位根过程,则一阶差分更为合适,因为差分可将非平稳序列转化为平稳序列。

与随机效应和 Hausman 检验的关系

组内估计量(固定效应)与广义最小二乘随机效应估计量构成面板数据分析的两大基本方法。二者的根本区别在于对 αi \alpha_i xit \mathbf{x}_{it} 关系的假设:固定效应允许任意相关性,代价是无法识别时不变变量的系数;随机效应假设二者不相关,在满足该假设时更有效,但若假设不成立则不一致。Hausman检验提供了在二者之间选择的统计准则:检验统计量比较固定效应与随机效应估计量的差异,显著差异意味着应拒绝随机效应而选择固定效应(组内估计量)。