ARTICLE

合并OLS

合并OLS(Pooled Ordinary Least Squares,简称Pooled OLS)是面板数据计量经济学中最基础的估计方法。其核心思想是将面板数据中所有个体在所有时间点上的观测值视为一个独立同分布的横截面样本,直接运用普通最小二乘法(OLS)进行回归估计。尽管合并OLS因忽略了面板数据的个体异质性和时间维度特征而存在明显局限,但其简洁性和作为基

浏览 0 更新 2025-11-26

合并OLS(Pooled Ordinary Least Squares,简称Pooled OLS)是面板数据计量经济学中最基础的估计方法。其核心思想是将面板数据中所有个体在所有时间点上的观测值视为一个独立同分布的横截面样本,直接运用普通最小二乘法(OLS)进行回归估计。尽管合并OLS因忽略了面板数据的个体异质性和时间维度特征而存在明显局限,但其简洁性和作为基准模型的参照价值使其在实证研究中仍有广泛应用。

1. 模型设定与估计

1.1 基本形式

合并OLS的回归方程可写为:

yit=β0+xitβ+εit,i=1,,N,  t=1,,Ty_{it} = \beta_0 + \mathbf{x}_{it}'\boldsymbol{\beta} + \varepsilon_{it}, \quad i=1,\dots,N,\; t=1,\dots,T

其中,下标 ii 表示个体(如企业、国家、个人),下标 tt 表示时间(如年份、季度)。被解释变量 yity_{it} 随个体和时间变化,解释变量向量 xit\mathbf{x}_{it} 同样具有双下标特征,随机扰动项 εit\varepsilon_{it} 则被假定为独立同分布。合并OLS的核心假设在于:所有 (i,t)(i,t) 组合对应的观测值满足标准的OLS假定条件,即零条件均值 E(εitxit)=0\mathbb{E}(\varepsilon_{it}|\mathbf{x}_{it})=0、同方差性 Var(εitxit)=σ2\text{Var}(\varepsilon_{it}|\mathbf{x}_{it})=\sigma^2 以及无自相关 Cov(εit,εjs)=0  (ij or ts)\text{Cov}(\varepsilon_{it},\varepsilon_{js})=0\;(i\neq j \text{ or } t\neq s)。在此假定下,合并OLS估计量 β^POLS\hat{\boldsymbol{\beta}}_{\text{POLS}} 具有无偏性和一致性。

1.2 与横截面OLS的异同

从操作层面看,合并OLS与横截面OLS并无本质区别——只需将面板数据按"个体—时间"索引逐行排列,构成 N×TN\times T 个观测值,然后执行标准的OLS回归。然而,这种表面上的等同掩盖了面板数据特有的结构问题。在横截面OLS中,NN 个个体之间通常满足相互独立,而面板数据中同一时间点的不同个体可能相关(截面相关),同一个体在不同时间点的观测值也常存在序列相关。这些问题若不加处理,将使合并OLS的推断失效。

2. 关键假设与局限性

2.1 同质性假设与个体异质性

合并OLS最关键也最受质疑的假设是同质性假设:所有个体的回归系数 β\boldsymbol{\beta} 和截距项完全相同,个体之间的一切差异都被归入扰动项 εit\varepsilon_{it}。然而,面板数据的核心优势恰恰在于能够控制不可观测的个体异质性——例如企业的管理水平、国家的制度质量、个人的能力禀赋等。这些因素通常与解释变量存在相关性,若被归入扰动项,会导致遗漏变量偏误,使OLS估计丧失一致性。例如,研究企业投资行为时,管理水平越高的企业往往投资越多,同时其资本结构也更优;若管理水平被归入残差项,则会与资本变量产生相关性,导致内生性偏误。

2.2 序列相关与聚类标准误

合并OLS的另一局限性在于对误差项序列相关的处理不当。同一企业在不同年份的扰动项往往正相关——若某年的投资决策受未观测到的冲击影响,这种冲击很可能延续至下一年。合并OLS的标准误计算公式假定所有观测值独立,这会低估真实标准误,导致过度拒绝原假设。实证研究中通常使用聚类稳健标准误(Cluster-Robust Standard Errors)来缓解这一问题,将标准误聚类至个体层面,允许个体内的时间序列存在任意相关结构。

2.3 其他假设条件

合并OLS还要求解释变量与扰动项不相关(外生性假定)、不存在完全共线性、以及在大样本下满足渐近正态性。当面板数据的时点数 TT 较小而个体数 NN 较大(短面板)时,合并OLS可能对大样本渐近性质仍可成立,但在长面板(TT 较大)时,序列相关问题会更加突出。

3. 在实证研究中的应用

3.1 基准模型的作用

尽管合并OLS存在上述局限,它在实证研究中仍扮演着不可替代的角色。绝大多数面板数据论文都以合并OLS作为分析的起点,将其结果作为"基准"或"参照系"。通过比较合并OLS与更复杂的估计方法(如固定效应模型、随机效应模型、一阶差分法)的结果,研究者可以直观地观察到控制个体异质性后系数估计值的变化方向和幅度,从而判断遗漏变量偏误的严重程度。若不同方法给出的估计值高度一致,说明个体异质性与核心解释变量的相关性较弱,模型的稳健性得到支持。

3.2 适用场景

合并OLS在以下情境中仍具合理性。其一,当研究者确信个体异质性不可观测但与解释变量不相关时——此时合并OLS与随机效应模型均一致,且合并OLS更为简洁。其二,在线性概率模型(LPM)等离散选择问题中,合并OLS常被用作快速探索性分析工具。其三,在宏观经济面板中,若截面个体数较少(如OECD国家、G20经济体),固定效应估计可能因自由度损失过大而效率不足,合并OLS反而提供更稳定的估计值。

3.3 与固定效应的比较

合并OLS与固定效应模型的核心区别在于对个体异质性的处理方式。固定效应模型通过组内变换(Within Transformation)或引入个体虚拟变量,消除不随时间变化的个体异质性。这种方法的优点在于无需假定个体异质性与解释变量正交,从而获得一致性估计;缺点在于它也消除了所有不随时间变化的解释变量的影响,且损失了大量自由度。合并OLS则保留了这些变量,但承担了个体异质性可能与解释变量相关的风险。实证研究中,豪斯曼检验(Hausman Test)常用于判断合并OLS(或随机效应)与固定效应之间孰优孰劣。

4. 软件实现与注意事项

在Stata中,合并OLS的命令与横截面OLS完全相同,如 \texttt{reg y x1 x2, vce(cluster id)} 即可实现带个体层面聚类稳健标准误的合并OLS估计。在R语言中,可使用 \texttt{lm(y \~ x1 + x2, data = df)} 获得合并OLS估计值,再通过 \texttt{coeftest(model, vcovCL)} 计算聚类标准误。分析师在使用合并OLS时,应至少完成以下诊断性工作:检查各变量在个体间和时间的变异程度(若某变量在个体内几乎没有变异,固定效应将无法识别其效应,合并OLS可能更合适);执行豪斯曼检验以辅助模型选择;报告聚类稳健标准误而非普通标准误;以及通过留一法或子样本分析检验模型对异常个体和异常时间段的敏感度。

5. 总结与展望

合并OLS是面板数据分析的起点而非终点。它为研究者提供了一个简洁且可复现的基准,是理解面板数据固有特征和评估更复杂模型表现所必需的参照。随着面板数据方法的发展,现代实证研究已很少单独依赖合并OLS进行因果推断,而是将其与其他方法(固定效应、随机效应、工具变量法、差分GMM、系统GMM等)结合使用,形成一套完整的分析框架。理解合并OLS的长处与短处,是掌握面板数据计量经济学的第一块基石。