ARTICLE

非平衡面板

非平衡面板 (Unbalanced Panel) 非平衡面板(unbalanced panel)是指各截面个体观测期数不完全相同的面板数据集。与之相对的是平衡面板(balanced panel),后者要求每个个体 i = 1, , N 均有相同的时间序列长度 T 。在非平衡面板中,个体 i 的观测期数为 T_i ,不同 i 的 T_i 可以不同,总样本量为

浏览 0 更新 2026-01-06

非平衡面板 (Unbalanced Panel)

非平衡面板(unbalanced panel)是指各截面个体观测期数不完全相同的面板数据集。与之相对的是平衡面板(balanced panel),后者要求每个个体 i=1,,N i = 1, \dots, N 均有相同的时间序列长度 T T 。在非平衡面板中,个体 i i 的观测期数为 Ti T_i ,不同 i i Ti T_i 可以不同,总样本量为 i=1NTi \sum_{i=1}^{N} T_i 。非平衡面板是应用计量研究中最常见的数据形态:企业数据库中存在进入和退出、家庭追踪调查中存在样本磨损(attrition)、跨国面板中存在国家形成与分裂,这些现实机制都自然产生非平衡结构。

非平衡面板的来源

非平衡面板的产生机制可归为三类。其一,样本磨损(attrition):追踪调查中受访者因死亡、迁移、拒访等原因退出调查,导致后期观测缺失。其二,进入与退出:企业面板中新企业的创立(进入)和旧企业的破产(退出)使得企业存续期长短不一,这是产业组织研究中非平衡面板的经典来源。其三,数据合并:将不同时间频率或不同起始年份的数据集合并时,部分变量对某些个体在部分年份不可得,形成非平衡结构。

从统计性质看,非平衡面板的"非平衡性"本身是否构成问题,取决于缺失机制的假设。若数据缺失属于完全随机缺失(MCAR, Missing Completely at Random),即缺失概率与可观测及不可观测变量均无关,则非平衡面板不导致估计偏误。若缺失属于随机缺失(MAR),即可观测变量足以解释缺失概率,则在似然框架下仍可得到一致估计。若缺失属于非随机缺失(MNAR),即缺失概率依赖于不可观测变量(如低收入家庭更可能退出调查),则需借助样本选择模型(Heckman-type selection models)进行修正。

非平衡面板下的计量方法

固定效应与随机效应

非平衡面板下,标准的固定效应模型随机效应模型仍可直接适用,无需特殊修正。固定效应的组内估计量(within estimator)通过在个体内进行均值离差变换来消除个体异质性 αi \alpha_i

y~it=x~itβ+ε~it\tilde{y}_{it} = \tilde{\mathbf{x}}_{it}'\boldsymbol{\beta} + \tilde{\varepsilon}_{it}

其中 y~it=yityˉi \tilde{y}_{it} = y_{it} - \bar{y}_i yˉi=Ti1t=1Tiyit \bar{y}_i = T_i^{-1}\sum_{t=1}^{T_i} y_{it} 依个体各自的观测期数计算。关键在于,各 Ti T_i 的不同仅影响个体均值估计的精度,但不破坏组内变换消除 αi \alpha_i 的性质——只要严格外生性假设 E[εitxi1,,xiTi,αi]=0 E[\varepsilon_{it} \mid \mathbf{x}_{i1}, \dots, \mathbf{x}_{iT_i}, \alpha_i] = 0 成立,固定效应估计量在非平衡面板下仍是一致的。

随机效应估计量则需要广义最小二乘(GLS)变换。非平衡面板下的随机效应估计涉及 θi=1σε/Tiσα2+σε2 \theta_i = 1 - \sigma_{\varepsilon} / \sqrt{T_i \sigma_{\alpha}^2 + \sigma_{\varepsilon}^2} 的个体特定准离差参数。由于 Ti T_i 不同,θi \theta_i 也因个体而异——这是非平衡面板与平衡面板在随机效应估计上的唯一实质性差异。

一阶差分估计

一阶差分估计(first-difference estimator)同样可用于非平衡面板,但需注意:只有当个体在相邻两期均有观测时,该差分观测才进入估计。非平衡面板下的一阶差分估计实际使用的样本量为 i=1N(Ti1) \sum_{i=1}^{N} (T_i - 1) (假设各期均为连续观测),意味着观测期短的个体提供的差分信息较少,但估计仍是一致的。

组间估计量与方差分解

组间估计量(between estimator)对每个个体取时间均值后进行横截面回归 yˉi=xˉiβ+αi+εˉi \bar{y}_i = \bar{\mathbf{x}}_i'\boldsymbol{\beta} + \alpha_i + \bar{\varepsilon}_i 。在非平衡面板中,yˉi \bar{y}_i 的估计精度依赖于 Ti T_i Ti T_i 较小的个体其组均值含更多噪声。若 Ti T_i 与个体特征系统相关,组间估计量可能产生异方差问题,需使用加权最小二乘或稳健标准误加以校正。

非平衡面板的特殊问题

损耗偏差

当样本损耗(attrition)与个体异质性 αi \alpha_i 相关时,非平衡面板下的固定效应估计量虽能消除 αi \alpha_i ,但 损耗偏差(attrition bias)依然可能通过时变不可观测因素影响估计。例如,在收入动态面板研究中,若低收入个体在收入进一步下降后更可能退出调查,则剩余样本中的收入趋势将被高估。处理此类问题的方法包括逆概率加权(IPW)、Heckman 选择修正以及边界分析

非连续观测

部分非平衡面板中,同一个体的观测可能存在"缺口"(gap)——即某一期缺失,后续期又出现。固定效应和一阶差分估计对此的处理方式不同:FE 估计利用所有可用观测计算个体均值,不受缺口影响;FD 估计中,缺口前后的两期差分无法构造(因为不是相邻期),故信息损失更多。

软件实现

主流计量软件对非平衡面板提供原生支持。Stata 的 \verb|xtreg| 命令自动根据实际 Ti T_i 进行组内变换或 GLS 变换,\verb|xtset| 声明面板结构后无需额外指定。R 的 \verb|plm| 包在 \verb|model = "within"| 或 \verb|"random"| 下自动处理非平衡数据。Python 的 \verb|linearmodels| 中 \verb|PanelOLS| 和 \verb|RandomEffects| 同样具备此能力。用户需注意的核心问题是确保缺失机制假设与所选估计方法相匹配,而非担忧非平衡性本身。