OLS 估计量 (Ordinary Least Squares Estimator)
普通最小二乘估计量 (OLS 估计量)是计量经济学 和数理统计 中最基础、应用最广泛的参数估计方法。其核心思想由Carl Friedrich Gauss 于18世纪末在天体轨道计算中首次系统使用,后经Andrey Markov 等人的理论化,成为线性回归模型的标准估计框架。OLS 通过最小化残差平方和(Sum of Squared Residuals, SSR)来求解回归系数,兼具计算简便性与优良统计性质。
估计量的构造与推导
考虑线性回归模型 的矩阵形式:
y = X β + ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} y = X β + ε
其中 y ∈ R n \mathbf{y} \in \mathbb{R}^n y ∈ R n 为因变量观测向量,X ∈ R n × k \mathbf{X} \in \mathbb{R}^{n \times k} X ∈ R n × k 为设计矩阵,β ∈ R k \boldsymbol{\beta} \in \mathbb{R}^k β ∈ R k 为待估参数向量,ε ∈ R n \boldsymbol{\varepsilon} \in \mathbb{R}^n ε ∈ R n 为不可观测的误差项。OLS 的目标是选择 β ^ \hat{\boldsymbol{\beta}} β ^ 使得残差平方和最小:
β ^ = arg min β ( y − X β ) ′ ( y − X β ) \hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \; (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) β ^ = arg β min ( y − X β ) ′ ( y − X β )
对目标函数关于 β \boldsymbol{\beta} β 求一阶条件:
∂ ∂ β ( y ′ y − 2 y ′ X β + β ′ X ′ X β ) = − 2 X ′ y + 2 X ′ X β = 0 \frac{\partial}{\partial \boldsymbol{\beta}} (\mathbf{y}'\mathbf{y} - 2\mathbf{y}'\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta}) = -2\mathbf{X}'\mathbf{y} + 2\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = \mathbf{0} ∂ β ∂ ( y ′ y − 2 y ′ X β + β ′ X ′ X β ) = − 2 X ′ y + 2 X ′ X β = 0
在 X ′ X \mathbf{X}'\mathbf{X} X ′ X 可逆的假设下(即不存在严格多重共线性 ),OLS 估计量的闭式解为:
β ^ = ( X ′ X ) − 1 X ′ y \boxed{\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}} β ^ = ( X ′ X ) − 1 X ′ y
该公式揭示了 OLS 估计量的本质:它是 y \mathbf{y} y 的线性函数。定义投影矩阵 P = X ( X ′ X ) − 1 X ′ \mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' P = X ( X ′ X ) − 1 X ′ ,则拟合值 y ^ = P y \hat{\mathbf{y}} = \mathbf{P}\mathbf{y} y ^ = Py ,残差 ε ^ = ( I − P ) y = M y \hat{\boldsymbol{\varepsilon}} = (\mathbf{I} - \mathbf{P})\mathbf{y} = \mathbf{M}\mathbf{y} ε ^ = ( I − P ) y = My ,其中 M = I − P \mathbf{M} = \mathbf{I} - \mathbf{P} M = I − P 为残差生成矩阵 (零化矩阵),满足 M X = 0 \mathbf{M}\mathbf{X} = \mathbf{0} MX = 0 ——即残差与所有解释变量正交。这一正交条件 是理解 OLS 几何性质与统计性质的关键。
有限样本性质
OLS 估计量的统计性质依赖于对模型假设的层层递进。
无偏性(Unbiasedness)
在假设 E ( ε ∣ X ) = 0 \mathbb{E}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \mathbf{0} E ( ε ∣ X ) = 0 (严格外生性)下:
E ( β ^ ∣ X ) = E ( ( X ′ X ) − 1 X ′ ( X β + ε ) ∣ X ) = β + ( X ′ X ) − 1 X ′ E ( ε ∣ X ) = β \mathbb{E}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \mathbb{E}((\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'(\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}) \mid \mathbf{X}) = \boldsymbol{\beta} + (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbb{E}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \boldsymbol{\beta} E ( β ^ ∣ X ) = E (( X ′ X ) − 1 X ′ ( X β + ε ) ∣ X ) = β + ( X ′ X ) − 1 X ′ E ( ε ∣ X ) = β
无偏性意味着 OLS 估计量在重复抽样中不会系统性地高估或低估真实参数。但需注意,无偏性是有限样本性质,且严重依赖于严格外生性——若存在内生性 (E ( x i ε i ) ≠ 0 \mathbb{E}(x_i \varepsilon_i) \neq 0 E ( x i ε i ) = 0 ),OLS 连无偏性也无法保证。
方差-协方差矩阵
在同方差 且无自相关 的球面误差假设下(V a r ( ε ∣ X ) = σ 2 I n \mathrm{Var}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \sigma^2 \mathbf{I}_n Var ( ε ∣ X ) = σ 2 I n ):
V a r ( β ^ ∣ X ) = ( X ′ X ) − 1 X ′ ⋅ σ 2 I n ⋅ X ( X ′ X ) − 1 = σ 2 ( X ′ X ) − 1 \mathrm{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' \cdot \sigma^2\mathbf{I}_n \cdot \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1} = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1} Var ( β ^ ∣ X ) = ( X ′ X ) − 1 X ′ ⋅ σ 2 I n ⋅ X ( X ′ X ) − 1 = σ 2 ( X ′ X ) − 1
其中 σ 2 \sigma^2 σ 2 的无偏估计量为 σ ^ 2 = ε ^ ′ ε ^ n − k = S S R n − k \hat{\sigma}^2 = \frac{\hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}}{n-k} = \frac{SSR}{n-k} σ ^ 2 = n − k ε ^ ′ ε ^ = n − k SSR ,分母使用 n − k n-k n − k (自由度调整)而非 n n n 正是为保无偏性。由此可构造单个系数的标准误:S E ( β ^ j ) = σ ^ ( X ′ X ) j j − 1 \mathrm{SE}(\hat{\beta}_j) = \hat{\sigma} \sqrt{(\mathbf{X}'\mathbf{X})^{-1}_{jj}} SE ( β ^ j ) = σ ^ ( X ′ X ) jj − 1 。
Gauss-Markov 定理与 BLUE
Gauss-Markov 定理 是 OLS 理论的核心支柱:在经典线性回归假设(线性性、满秩、严格外生性、球面误差方差)下,OLS 估计量在所有线性无偏估计量中具有最小方差——即 OLS 是BLUE (Best Linear Unbiased Estimator)。
该定理的证明思路简练而深刻:设 β ~ = C y \tilde{\boldsymbol{\beta}} = \mathbf{C}\mathbf{y} β ~ = Cy 为任一线性无偏估计量,无偏性要求 C X = I k \mathbf{C}\mathbf{X} = \mathbf{I}_k CX = I k 。将 β ~ \tilde{\boldsymbol{\beta}} β ~ 写为 β ~ = β ^ + D y \tilde{\boldsymbol{\beta}} = \hat{\boldsymbol{\beta}} + \mathbf{D}\mathbf{y} β ~ = β ^ + Dy (其中 D = C − ( X ′ X ) − 1 X ′ \mathbf{D} = \mathbf{C} - (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' D = C − ( X ′ X ) − 1 X ′ ),无偏条件等价于 D X = 0 \mathbf{D}\mathbf{X} = \mathbf{0} DX = 0 。于是:
V a r ( β ~ ) = V a r ( β ^ ) + σ 2 D D ′ + C o v ( β ^ , D ε ) ⏟ = 0 \mathrm{Var}(\tilde{\boldsymbol{\beta}}) = \mathrm{Var}(\hat{\boldsymbol{\beta}}) + \sigma^2\mathbf{D}\mathbf{D}' + \underbrace{\mathrm{Cov}(\hat{\boldsymbol{\beta}}, \mathbf{D}\boldsymbol{\varepsilon})}_{= \mathbf{0}} Var ( β ~ ) = Var ( β ^ ) + σ 2 D D ′ + = 0 Cov ( β ^ , D ε )
由于 σ 2 D D ′ \sigma^2\mathbf{D}\mathbf{D}' σ 2 D D ′ 半正定,V a r ( β ~ ) − V a r ( β ^ ) \mathrm{Var}(\tilde{\boldsymbol{\beta}}) - \mathrm{Var}(\hat{\boldsymbol{\beta}}) Var ( β ~ ) − Var ( β ^ ) 半正定,证毕。关键在于:任何偏离 OLS 的线性无偏估计量等价于在 OLS 基础上加入与 X \mathbf{X} X 正交的噪声项(D X = 0 \mathbf{D}\mathbf{X} = \mathbf{0} DX = 0 ),只会增加而不会减少方差。
渐近性质
当样本量 n → ∞ n \to \infty n → ∞ 时,OLS 具有更稳健的性质。
一致性(Consistency)
在较弱的条件下——仅需 p l i m X ′ ε n = 0 \mathrm{plim}\, \frac{\mathbf{X}'\boldsymbol{\varepsilon}}{n} = \mathbf{0} plim n X ′ ε = 0 (解释变量与误差的样本协方差依概率趋于零)和 p l i m X ′ X n = Q \mathrm{plim}\, \frac{\mathbf{X}'\mathbf{X}}{n} = \mathbf{Q} plim n X ′ X = Q (Q \mathbf{Q} Q 正定)——OLS 即满足一致性 :
p l i m β ^ = β + Q − 1 ⋅ p l i m X ′ ε n = β \mathrm{plim}\,\hat{\boldsymbol{\beta}} = \boldsymbol{\beta} + \mathbf{Q}^{-1} \cdot \mathrm{plim}\,\frac{\mathbf{X}'\boldsymbol{\varepsilon}}{n} = \boldsymbol{\beta} plim β ^ = β + Q − 1 ⋅ plim n X ′ ε = β
一致性比无偏性更为根本:即使有限样本中 OLS 存在偏误,只要样本足够大,估计值仍会收敛到真实参数。这为工具变量法等处理内生性的方法提供了理论基础。
渐近正态性
在 i.i.d. 抽样且存在有限四阶矩的条件下,借助Lindeberg-Levy 中心极限定理 :
n ( β ^ − β ) → d N ( 0 , σ 2 Q − 1 ) \sqrt{n}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \xrightarrow{d} \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{Q}^{-1}) n ( β ^ − β ) d N ( 0 , σ 2 Q − 1 )
渐近正态性使得即使误差项不服从正态分布,大样本下的 t 检验和 F 检验仍然近似有效。当存在异方差 时,需使用 White 异方差稳健标准误(也称Huber-White 标准误或Eicker-Huber-White 标准误):
V a r robust ( β ^ ) = ( X ′ X ) − 1 ( ∑ i = 1 n ε ^ i 2 x i x i ′ ) ( X ′ X ) − 1 \mathrm{Var}_{\text{robust}}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}'\mathbf{X})^{-1}\left(\sum_{i=1}^n \hat{\varepsilon}_i^2 \mathbf{x}_i \mathbf{x}_i'\right)(\mathbf{X}'\mathbf{X})^{-1} Var robust ( β ^ ) = ( X ′ X ) − 1 ( i = 1 ∑ n ε ^ i 2 x i x i ′ ) ( X ′ X ) − 1
该估计量在未知异方差形式下提供了一致的标准误估计,是实证研究的标准实践。
假设诊断与违反后果
OLS 的优良性质高度依赖假设的满足程度,假设检验的诊断方法构成了计量经济学实践的重要一环。
多重共线性(Multicollinearity) :当解释变量间高度相关时,X ′ X \mathbf{X}'\mathbf{X} X ′ X 接近奇异,OLS 虽仍为 BLUE,但方差急剧膨胀。检测手段包括方差膨胀因子 (VIF):V I F j = 1 / ( 1 − R j 2 ) \mathrm{VIF}_j = 1/(1-R_j^2) VIF j = 1/ ( 1 − R j 2 ) ,其中 R j 2 R_j^2 R j 2 是 x j x_j x j 对其余解释变量回归的拟合优度。VIF > 10 常被视为严重共线性的信号。异方差(Heteroskedasticity) :当 V a r ( ε i ) = σ i 2 \mathrm{Var}(\varepsilon_i) = \sigma_i^2 Var ( ε i ) = σ i 2 不恒定时,OLS 失去最优性(不再是 BLUE)。Breusch-Pagan 检验 和White 检验 是常用的异方差诊断工具。在此情形下,广义最小二乘 (GLS)和加权最小二乘 (WLS)是更有效的替代方案,而稳健标准误则为推断提供了保护。自相关(Autocorrelation) :在时间序列 数据中,若 C o v ( ε t , ε t − s ) ≠ 0 \mathrm{Cov}(\varepsilon_t, \varepsilon_{t-s}) \neq 0 Cov ( ε t , ε t − s ) = 0 ,OLS 不再是 BLUE。Durbin-Watson 检验 针对一阶自相关设计,Breusch-Godfrey 检验 (LM 检验)可检验更高阶自相关。Newey-West 异方差自相关一致(HAC)标准误提供了大样本下的稳健推断。内生性(Endogeneity) :这是最严重的偏离——E ( x i ε i ) ≠ 0 \mathbb{E}(x_i \varepsilon_i) \neq 0 E ( x i ε i ) = 0 导致 OLS 既非无偏也非一致。内生性的来源包括遗漏变量偏误 、测量误差 、互为因果 (联立性)和样本选择 。工具变量法 (IV)和两阶段最小二乘 (2SLS)是核心补救策略。Hausman 检验 (或称Durbin-Wu-Hausman 检验 )可用于正式诊断内生性。
OLS 的几何解释
从线性代数角度看,OLS 本质上是将 y \mathbf{y} y 正交投影到由 X \mathbf{X} X 的列张成的子空间 C ( X ) \mathcal{C}(\mathbf{X}) C ( X ) 上。投影矩阵 P = X ( X ′ X ) − 1 X ′ \mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' P = X ( X ′ X ) − 1 X ′ 是对称幂等矩阵,满足 P X = X \mathbf{P}\mathbf{X} = \mathbf{X} PX = X 。残差向量 ε ^ \hat{\boldsymbol{\varepsilon}} ε ^ 是 y \mathbf{y} y 到该子空间的正交补空间 C ( X ) ⊥ \mathcal{C}(\mathbf{X})^{\perp} C ( X ) ⊥ 的投影。Frisch-Waugh-Lovell 定理 (FWL 定理)在此基础上提供了一种深刻的理解:多元回归中任一子集系数的 OLS 估计等价于先剔除其他变量影响(partial out),再估计净效应的三步程序,完美诠释了"控制其他变量不变"(ceteris paribus)的几何内涵。
OLS 与极大似然估计的联系
当误差项服从正态分布 ε ∼ N ( 0 , σ 2 I n ) \boldsymbol{\varepsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2 \mathbf{I}_n) ε ∼ N ( 0 , σ 2 I n ) 时,OLS 估计量等价于极大似然估计 (MLE)量。此时,对数似然函数为:
ℓ ( β , σ 2 ) = − n 2 ln ( 2 π ) − n 2 ln σ 2 − 1 2 σ 2 ( y − X β ) ′ ( y − X β ) \ell(\boldsymbol{\beta}, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) ℓ ( β , σ 2 ) = − 2 n ln ( 2 π ) − 2 n ln σ 2 − 2 σ 2 1 ( y − X β ) ′ ( y − X β )
最大化 ℓ \ell ℓ 关于 β \boldsymbol{\beta} β 等价于最小化残差平方和,故 β ^ OLS = β ^ MLE \hat{\boldsymbol{\beta}}_{\text{OLS}} = \hat{\boldsymbol{\beta}}_{\text{MLE}} β ^ OLS = β ^ MLE 。但需注意,σ 2 \sigma^2 σ 2 的 MLE 为 σ ^ MLE 2 = S S R / n \hat{\sigma}^2_{\text{MLE}} = SSR/n σ ^ MLE 2 = SSR / n (有偏),而 OLS 框架下常用的无偏估计为 S S R / ( n − k ) SSR/(n-k) SSR / ( n − k ) 。在正态误差假设下,OLS 进一步加强为在所有无偏估计量(包括非线性)中具有最小方差——即最佳无偏估计量 (BUE),这是 Gauss-Markov 定理结合Cramér-Rao 下界 的直接推论。
OLS 在实证研究中的地位
OLS 估计量是实证经济学家最常使用的工具。它不仅是建立因果推断的起点,也是更复杂方法(面板数据固定效应 模型、断点回归 设计的一阶段估计、双重差分 的基准设定)的构成基础。即使在机器学习 和高维统计 兴起的背景下,OLS 作为基准模型(baseline)的角色依然不可替代——研究者通常先报告 OLS 结果,再展示更复杂方法的边际贡献。其持久的生命力源于两点:计算上的极致简便(闭式解、无需迭代优化)与理论上 Gauss-Markov 定理提供的清晰最优性保证。理解 OLS 何时有效、何时失效、以及失效后的诊断与补救路径,是计量经济学训练的核心内容。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。