OLS估计量 (Ordinary Least Squares Estimator,普通最小二乘估计量)是回归分析中最基础且应用最广泛的参数估计方法。其核心思想是选择模型参数,使得被解释变量的实际观测值与模型预测值之间的残差平方和最小化。OLS估计量在古典线性回归模型的假设下具有最优线性无偏性质(BLUE),是计量经济学与统计建模的基石工具。该方法由德国数学家卡尔·弗里德里希·高斯(Carl Friedrich Gauss)于19世纪初提出,后经马尔可夫(Andrey Markov)等人的系统化发展,至今仍是所有实证研究中出场频率最高的估计方法。
1. 模型设定与估计公式
考虑标准的多元线性回归模型。对于 i = 1 , 2 , … , n i = 1, 2, \ldots, n i = 1 , 2 , … , n 个样本观测,模型可写为:
y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β k x i k + ε i y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_k x_{ik} + \varepsilon_i y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β k x ik + ε i
其中 y i y_i y i 为被解释变量(因变量),x i j x_{ij} x ij 为第 j j j 个解释变量(自变量),β j \beta_j β j 为对应的待估回归系数,ε i \varepsilon_i ε i 为不可观测的随机误差项。使用矩阵形式可将上述方程组简洁表达为:
y = X β + ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} y = X β + ε
这里 y \mathbf{y} y 为 n × 1 n \times 1 n × 1 观测值向量,X \mathbf{X} X 为 n × ( k + 1 ) n \times (k+1) n × ( k + 1 ) 设计矩阵(第一列全为1,对应截距项),β \boldsymbol{\beta} β 为 ( k + 1 ) × 1 (k+1) \times 1 ( k + 1 ) × 1 参数向量,ε \boldsymbol{\varepsilon} ε 为 n × 1 n \times 1 n × 1 误差向量。
OLS估计量 β ^ \hat{\boldsymbol{\beta}} β ^ 通过求解以下最小化问题获得:
β ^ = arg min β S ( β ) = arg min β ∑ i = 1 n ( y i − x i ⊤ β ) 2 = arg min β ( y − X β ) ⊤ ( y − X β ) \hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} S(\boldsymbol{\beta}) = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^n (y_i - \mathbf{x}_i^\top\boldsymbol{\beta})^2 = \arg\min_{\boldsymbol{\beta}} (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^\top (\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) β ^ = arg β min S ( β ) = arg β min i = 1 ∑ n ( y i − x i ⊤ β ) 2 = arg β min ( y − X β ) ⊤ ( y − X β )
将目标函数展开并对 β \boldsymbol{\beta} β 求导,令一阶导数为零,得到正规方程组 X ⊤ X β = X ⊤ y \mathbf{X}^\top\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^\top\mathbf{y} X ⊤ X β = X ⊤ y 。若 X ⊤ X \mathbf{X}^\top\mathbf{X} X ⊤ X 可逆,则解得OLS估计量的闭合表达式:
β ^ = ( X ⊤ X ) − 1 X ⊤ y \hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y} β ^ = ( X ⊤ X ) − 1 X ⊤ y
这一公式简洁而优美,是线性回归理论的核心结果。其成立的关键前提是矩阵 X ⊤ X \mathbf{X}^\top\mathbf{X} X ⊤ X 满秩,即各解释变量之间不存在完全的多重共线性。若不满秩,则OLS估计量无法唯一确定,此时需要引入正则化方法或删减变量。
2. 高斯-马尔可夫定理与BLUE性质
高斯-马尔可夫定理(Gauss–Markov Theorem)为OLS估计量提供了最重要的理论支撑。在满足以下古典线性回归模型假设的条件下,OLS估计量是所有线性无偏估计量中方差最小的,即具备BLUE(Best Linear Unbiased Estimator)性质:
古典假设条件:
线性性 :模型关于参数 β \boldsymbol{\beta} β 为线性严格外生性 :E [ ε i ∣ X ] = 0 \mathbb{E}[\varepsilon_i | \mathbf{X}] = 0 E [ ε i ∣ X ] = 0 ,即误差项的条件期望为零,解释变量与误差项不相关球面误差方差 :Var ( ε ∣ X ) = σ 2 I n \text{Var}(\boldsymbol{\varepsilon} | \mathbf{X}) = \sigma^2 \mathbf{I}_n Var ( ε ∣ X ) = σ 2 I n ,这包含两层含义——所有误差项具有相同方差(同方差性)且不同观测的误差项互不相关(无自相关)满秩条件 :rank ( X ) = k + 1 < n \text{rank}(\mathbf{X}) = k+1 < n rank ( X ) = k + 1 < n ,确保参数可识别(可选)正态性 :ε ∣ X ∼ N ( 0 , σ 2 I ) \boldsymbol{\varepsilon} | \mathbf{X} \sim N(\mathbf{0}, \sigma^2 \mathbf{I}) ε ∣ X ∼ N ( 0 , σ 2 I ) ,该假设并非BLUE所需,但保证了有限样本下的精确统计推断
在这些假设下,OLS估计量具有以下核心性质:
无偏性 :E [ β ^ ∣ X ] = β \mathbb{E}[\hat{\boldsymbol{\beta}} | \mathbf{X}] = \boldsymbol{\beta} E [ β ^ ∣ X ] = β ,即在重复抽样意义下,估计量的期望等于真实参数值有效性 :在全体线性无偏估计量中,β ^ \hat{\boldsymbol{\beta}} β ^ 的方差-协方差矩阵最小(依矩阵半正定序)一致性 :当样本量 n → ∞ n \to \infty n → ∞ 时,β ^ → p β \hat{\boldsymbol{\beta}} \xrightarrow{p} \boldsymbol{\beta} β ^ p β ,即估计量依概率收敛于真实值
OLS估计量的方差-协方差矩阵为:
Var ( β ^ ∣ X ) = σ 2 ( X ⊤ X ) − 1 \text{Var}(\hat{\boldsymbol{\beta}} | \mathbf{X}) = \sigma^2 (\mathbf{X}^\top\mathbf{X})^{-1} Var ( β ^ ∣ X ) = σ 2 ( X ⊤ X ) − 1
其中误差方差 σ 2 \sigma^2 σ 2 的OLS无偏估计量为 σ ^ 2 = e ⊤ e n − k − 1 \hat{\sigma}^2 = \frac{\mathbf{e}^\top\mathbf{e}}{n-k-1} σ ^ 2 = n − k − 1 e ⊤ e ,这里的 e = y − X β ^ \mathbf{e} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} e = y − X β ^ 为残差向量,n − k − 1 n-k-1 n − k − 1 为自由度。σ ^ 2 \hat{\sigma}^2 σ ^ 2 的平方根称为回归标准误(Standard Error of the Regression),用于衡量模型的整体拟合精度。
3. OLS估计量的几何解释
从线性代数的几何视角审视,OLS估计量具有深刻而直观的解读。设计矩阵 X \mathbf{X} X 的 k + 1 k+1 k + 1 个列向量张成一个 ( k + 1 ) (k+1) ( k + 1 ) 维子空间 C ( X ) ⊆ R n \mathcal{C}(\mathbf{X}) \subseteq \mathbb{R}^n C ( X ) ⊆ R n (称为列空间)。被解释变量向量 y \mathbf{y} y 通常不完全落在此子空间内。OLS估计的本质就是将 y \mathbf{y} y 正交投影到 C ( X ) \mathcal{C}(\mathbf{X}) C ( X ) 上,投影向量 y ^ = X β ^ \hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} y ^ = X β ^ 即为拟合值。
投影矩阵(帽子矩阵)定义为 P = X ( X ⊤ X ) − 1 X ⊤ \mathbf{P} = \mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top P = X ( X ⊤ X ) − 1 X ⊤ ,满足 y ^ = P y \hat{\mathbf{y}} = \mathbf{P}\mathbf{y} y ^ = Py 。残差向量 e = y − y ^ = ( I − P ) y \mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} = (\mathbf{I} - \mathbf{P})\mathbf{y} e = y − y ^ = ( I − P ) y 则与 C ( X ) \mathcal{C}(\mathbf{X}) C ( X ) 正交。这一正交性意味着残差与每一个解释变量均不相关,且残差之和为零(当模型包含截距项时)。投影矩阵 P \mathbf{P} P 是幂等对称矩阵(P 2 = P \mathbf{P}^2 = \mathbf{P} P 2 = P ,P ⊤ = P \mathbf{P}^\top = \mathbf{P} P ⊤ = P ),这一代数性质保证了投影操作的一致性。
从几何角度理解OLS还有一个重要优势:可以直观地解释为什么增加解释变量会降低残差平方和——更多解释变量意味着投影的目标子空间维度更高,y \mathbf{y} y 与其投影之间的距离(即残差范数)只可能减小或不变,而不可能增大。
4. 拟合优度与模型评价
评价OLS估计量拟合效果的常用指标是决定系数 R 2 R^2 R 2 :
R 2 = 1 − e ⊤ e ( y − y ˉ 1 ) ⊤ ( y − y ˉ 1 ) = ESS TSS R^2 = 1 - \frac{\mathbf{e}^\top\mathbf{e}}{(\mathbf{y} - \bar{y}\mathbf{1})^\top(\mathbf{y} - \bar{y}\mathbf{1})} = \frac{\text{ESS}}{\text{TSS}} R 2 = 1 − ( y − y ˉ 1 ) ⊤ ( y − y ˉ 1 ) e ⊤ e = TSS ESS
其中TSS为总离差平方和,ESS为回归平方和(解释部分)。R 2 R^2 R 2 取值在0到1之间,度量了模型中解释变量对被解释变量变异的解释比例。然而,R 2 R^2 R 2 会随解释变量数量的增加而单调递增,因此不适宜作为模型选择的唯一依据。调整后的 R 2 R^2 R 2 (Adjusted R 2 R^2 R 2 )通过对自由度施加惩罚来缓解这一问题:
R ˉ 2 = 1 − e ⊤ e / ( n − k − 1 ) ( y − y ˉ 1 ) ⊤ ( y − y ˉ 1 ) / ( n − 1 ) \bar{R}^2 = 1 - \frac{\mathbf{e}^\top\mathbf{e}/(n-k-1)}{(\mathbf{y} - \bar{y}\mathbf{1})^\top(\mathbf{y} - \bar{y}\mathbf{1})/(n-1)} R ˉ 2 = 1 − ( y − y ˉ 1 ) ⊤ ( y − y ˉ 1 ) / ( n − 1 ) e ⊤ e / ( n − k − 1 )
此外,信息准则如AIC(Akaike Information Criterion)和BIC(Bayesian Information Criterion)也在模型比较中发挥着重要作用。
5. 假设违背的处理方法
5.1 异方差与自相关
如果球面误差假设被违反——即误差项存在异方差(Var ( ε i ) ≠ σ 2 \text{Var}(\varepsilon_i) \neq \sigma^2 Var ( ε i ) = σ 2 )或自相关(Cov ( ε i , ε j ) ≠ 0 \text{Cov}(\varepsilon_i, \varepsilon_j) \neq 0 Cov ( ε i , ε j ) = 0 对 i ≠ j i \neq j i = j )——则OLS估计量虽仍保持无偏性和一致性,但其标准误估计有偏,导致t检验和F检验失效。处理方法包括:
异方差稳健标准误 (White标准误,1980):在无需知道异方差具体形式的情况下,通过"三明治"估计量修正方差-协方差矩阵异方差自相关一致标准误 (Newey-West标准误,1987):同时处理异方差和自相关,适用于时间序列数据可行广义最小二乘法 (FGLS):通过对误差方差-协方差结构建模,以加权最小二乘法获得更有效的估计
5.2 多重共线性
当解释变量之间存在高度相关关系时,X ⊤ X \mathbf{X}^\top\mathbf{X} X ⊤ X 接近奇异,导致OLS估计量的方差膨胀,估计值不稳定。方差膨胀因子(VIF)是诊断多重共线性的常用工具。严重共线性下可考虑岭回归(Ridge Regression)或主成分回归。
5.3 内生性
最严重的假设违背是内生性问题,即解释变量与误差项相关(E [ ε i ∣ X ] ≠ 0 \mathbb{E}[\varepsilon_i | \mathbf{X}] \neq 0 E [ ε i ∣ X ] = 0 )。此时OLS估计量丧失一致性,产生系统性偏误。内生性的常见来源包括遗漏变量偏误、测量误差、联立性(反向因果)。解决方案是采用工具变量估计(IV)或两阶段最小二乘法(2SLS)。
6. OLS估计量的应用与局限
OLS估计量因其计算简便、结果直观、理论基础坚实而广泛应用于经济学、金融学、社会学、流行病学等众多领域。回归系数 β ^ j \hat{\beta}_j β ^ j 可直接解读为"在其他条件不变的情况下,x j x_j x j 每增加一个单位,y y y 的平均变化量",这一边际效应的解读方式使得OLS成为因果推断中不可或缺的分析工具。
然而,OLS估计量也存在明显局限:它对异常值高度敏感,少数极端观测可能严重扭曲估计结果;它要求正确的模型设定,包括适当的函数形式和完整的变量选择,否则将产生遗漏变量偏误;它无法自动处理非线性关系,需要研究者手动引入交互项或多项式项。在大数据时代,当解释变量个数 k k k 接近甚至超过样本量 n n n 时,传统OLS将因过度拟合和方差爆炸而失效,此时岭回归、Lasso和弹性网(Elastic Net)等正则化方法成为更优选择。总体而言,OLS估计量既是学习高级估计技术的逻辑起点,也是实证研究中最可靠的基准方法。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。