普通最小二乘法 (Ordinary Least Squares, OLS)
普通最小二乘法 (Ordinary Least Squares, OLS),是计量经济学 和统计学 中最基本、最常用的一种参数估计方法,主要用于线性回归模型 。其核心目标是找到一组参数,使得模型预测值与真实观测值之差(即残差 )的平方和达到最小。通过这种方法得到的回归线被认为是数据的“最佳拟合线”。
OLS不仅是一种计算技术,它也是一套理论框架的基础。理解OLS是学习更高级回归技术(如广义最小二乘法、工具变量法等)的基石。
核心思想:最小化残差平方和
假设我们有一个简单的线性回归模型 ,用以描述变量 X X X (自变量 或解释变量)和变量 Y Y Y (因变量 或被解释变量)之间的关系:
Y i = β 0 + β 1 X i + u i Y_i = \beta_0 + \beta_1 X_i + u_i Y i = β 0 + β 1 X i + u i
其中:
Y i Y_i Y i 是第 i i i 个观测的因变量值。X i X_i X i 是第 i i i 个观测的自变量值。β 0 \beta_0 β 0 是模型的截距 (intercept),代表当 X = 0 X=0 X = 0 时 Y Y Y 的期望值。β 1 \beta_1 β 1 是模型的斜率 (slope),代表 X X X 每增加一个单位,Y Y Y 的期望变化量。u i u_i u i 是误差项 (error term) 或扰动项,代表所有其他未被模型包含但影响 Y Y Y 的因素,以及固有的随机性。
我们的目标是利用一组样本数据 ( X i , Y i ) (X_i, Y_i) ( X i , Y i ) ,来估计未知的真实参数 β 0 \beta_0 β 0 和 β 1 \beta_1 β 1 。我们将估计得到的值记为 β ^ 0 \hat{\beta}_0 β ^ 0 和 β ^ 1 \hat{\beta}_1 β ^ 1 。
对于任意一组估计值 β ^ 0 \hat{\beta}_0 β ^ 0 和 β ^ 1 \hat{\beta}_1 β ^ 1 ,我们可以得到一个拟合(或预测)的 Y i Y_i Y i 值:
Y ^ i = β ^ 0 + β ^ 1 X i \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i Y ^ i = β ^ 0 + β ^ 1 X i
真实值 Y i Y_i Y i 和拟合值 Y ^ i \hat{Y}_i Y ^ i 之间的差异被称为残差 (residual) ,记为 e i e_i e i :
e i = Y i − Y ^ i = Y i − ( β ^ 0 + β ^ 1 X i ) e_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_i) e i = Y i − Y ^ i = Y i − ( β ^ 0 + β ^ 1 X i )
OLS的直观思想是,我们应该选择这样的一组 β ^ 0 \hat{\beta}_0 β ^ 0 和 β ^ 1 \hat{\beta}_1 β ^ 1 ,使得这条回归线“尽可能地”接近所有的样本点。OLS将“接近”定义为所有样本点的残差平方和 (Sum of Squared Residuals, SSR) 最小。
选择残差的平方 和,而不是残差本身的和,有以下几个原因:
残差有正有负,直接相加会相互抵消,无法衡量整体的拟合优度。 平方项使得较大的残差被赋予更高的“惩罚”,从而使模型对异常值更敏感。 从数学上讲,平方和函数是凸函数 ,易于求导和求解最小值。
因此,OLS的优化问题可以写成:
min β ^ 0 , β ^ 1 S S R ( β ^ 0 , β ^ 1 ) = ∑ i = 1 n e i 2 = ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) 2 \min_{\hat{\beta}_0, \hat{\beta}_1} SSR(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2 β ^ 0 , β ^ 1 min SSR ( β ^ 0 , β ^ 1 ) = i = 1 ∑ n e i 2 = i = 1 ∑ n ( Y i − β ^ 0 − β ^ 1 X i ) 2
其中 n n n 是样本容量。
数学推导
为了找到使 S S R SSR SSR 最小的 β ^ 0 \hat{\beta}_0 β ^ 0 和 β ^ 1 \hat{\beta}_1 β ^ 1 ,我们使用微积分 中的方法,即对 S S R SSR SSR 分别求关于 β ^ 0 \hat{\beta}_0 β ^ 0 和 β ^ 1 \hat{\beta}_1 β ^ 1 的偏导数,并令其等于零。这被称为一阶条件 (First-Order Conditions, FOCs)。
对 β ^ 0 \hat{\beta}_0 β ^ 0 求偏导:
∂ S S R ∂ β ^ 0 = ∑ i = 1 n 2 ( Y i − β ^ 0 − β ^ 1 X i ) ( − 1 ) = − 2 ∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X i ) = 0 \frac{\partial SSR}{\partial \hat{\beta}_0} = \sum_{i=1}^{n} 2(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)(-1) = -2 \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0 ∂ β ^ 0 ∂ SSR = i = 1 ∑ n 2 ( Y i − β ^ 0 − β ^ 1 X i ) ( − 1 ) = − 2 i = 1 ∑ n ( Y i − β ^ 0 − β ^ 1 X i ) = 0
简化后得到:
∑ i = 1 n Y i = n β ^ 0 + β ^ 1 ∑ i = 1 n X i \sum_{i=1}^{n} Y_i = n\hat{\beta}_0 + \hat{\beta}_1 \sum_{i=1}^{n} X_i i = 1 ∑ n Y i = n β ^ 0 + β ^ 1 i = 1 ∑ n X i
两边同除以 n n n ,得到:
Y ˉ = β ^ 0 + β ^ 1 X ˉ ⟹ β ^ 0 = Y ˉ − β ^ 1 X ˉ \bar{Y} = \hat{\beta}_0 + \hat{\beta}_1 \bar{X} \implies \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} Y ˉ = β ^ 0 + β ^ 1 X ˉ ⟹ β ^ 0 = Y ˉ − β ^ 1 X ˉ
其中 Y ˉ \bar{Y} Y ˉ 和 X ˉ \bar{X} X ˉ 分别是 Y Y Y 和 X X X 的样本均值。这个结果表明,OLS回归线必然通过样本均值点 ( X ˉ , Y ˉ ) (\bar{X}, \bar{Y}) ( X ˉ , Y ˉ ) 。
对 β ^ 1 \hat{\beta}_1 β ^ 1 求偏导:
∂ S S R ∂ β ^ 1 = ∑ i = 1 n 2 ( Y i − β ^ 0 − β ^ 1 X i ) ( − X i ) = − 2 ∑ i = 1 n X i ( Y i − β ^ 0 − β ^ 1 X i ) = 0 \frac{\partial SSR}{\partial \hat{\beta}_1} = \sum_{i=1}^{n} 2(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)(-X_i) = -2 \sum_{i=1}^{n} X_i(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0 ∂ β ^ 1 ∂ SSR = i = 1 ∑ n 2 ( Y i − β ^ 0 − β ^ 1 X i ) ( − X i ) = − 2 i = 1 ∑ n X i ( Y i − β ^ 0 − β ^ 1 X i ) = 0
简化后得到:
∑ i = 1 n X i Y i = β ^ 0 ∑ i = 1 n X i + β ^ 1 ∑ i = 1 n X i 2 \sum_{i=1}^{n} X_i Y_i = \hat{\beta}_0 \sum_{i=1}^{n} X_i + \hat{\beta}_1 \sum_{i=1}^{n} X_i^2 i = 1 ∑ n X i Y i = β ^ 0 i = 1 ∑ n X i + β ^ 1 i = 1 ∑ n X i 2
将 β ^ 0 = Y ˉ − β ^ 1 X ˉ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} β ^ 0 = Y ˉ − β ^ 1 X ˉ 代入上式并整理,经过一系列代数运算,我们可以得到 β ^ 1 \hat{\beta}_1 β ^ 1 的解:
β ^ 1 = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 = Cov ( X , Y ) Var ( X ) \hat{\beta}_1 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} β ^ 1 = ∑ i = 1 n ( X i − X ˉ ) 2 ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) = Var ( X ) Cov ( X , Y )
这个公式直观地表示,斜率估计值是 X X X 和 Y Y Y 的样本协方差 与 X X X 的样本方差 之比。
矩阵形式 (Matrix Form)
对于包含 k k k 个自变量的多元线性回归 模型:
Y i = β 0 + β 1 X 1 i + β 2 X 2 i + ⋯ + β k X k i + u i Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + u_i Y i = β 0 + β 1 X 1 i + β 2 X 2 i + ⋯ + β k X ki + u i
使用矩阵表示会更为简洁。模型可以写为:
y = X β + u \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u} y = X β + u
其中:
y \mathbf{y} y 是一个 n × 1 n \times 1 n × 1 的因变量观测值向量。X \mathbf{X} X 是一个 n × ( k + 1 ) n \times (k+1) n × ( k + 1 ) 的自变量数据矩阵(第一列通常是1,对应截距项)。β \boldsymbol{\beta} β 是一个 ( k + 1 ) × 1 (k+1) \times 1 ( k + 1 ) × 1 的未知参数向量。u \mathbf{u} u 是一个 n × 1 n \times 1 n × 1 的误差项向量。
OLS的目标是最小化残差平方和 S S R = e ′ e = ( y − X β ^ ) ′ ( y − X β ^ ) SSR = \mathbf{e}'\mathbf{e} = (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) SSR = e ′ e = ( y − X β ^ ) ′ ( y − X β ^ ) 。 通过矩阵求导并令其为零,可以得到OLS估计量的矩阵表达式:
β ^ = ( X ′ X ) − 1 X ′ y \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y} β ^ = ( X ′ X ) − 1 X ′ y
这个公式是计量经济学中最重要的公式之一,它为计算任意多元线性回归模型的系数提供了通用的解决方案。
OLS的经典假设 (高斯-马尔可夫假设)
OLS估计量具有一些优良的统计性质,但这些性质的成立依赖于一组被称为高斯-马尔可夫 (Gauss-Markov) 假设 的经典假定。当这些假设成立时,OLS估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE) 。
线性于参数 (Linearity in Parameters) :模型 Y = β 0 + β 1 X + u Y = \beta_0 + \beta_1 X + u Y = β 0 + β 1 X + u 必须是关于参数 β 0 \beta_0 β 0 和 β 1 \beta_1 β 1 的线性函数。变量本身可以是非线性的(例如,Y = β 0 + β 1 log ( X ) + u Y = \beta_0 + \beta_1 \log(X) + u Y = β 0 + β 1 log ( X ) + u 仍然是线性模型)。
随机抽样 (Random Sampling) :样本数据 { ( X i , Y i ) : i = 1 , … , n } \{(X_i, Y_i): i=1, \dots, n\} {( X i , Y i ) : i = 1 , … , n } 是从总体中随机抽取的。
不存在完全多重共线性 (No Perfect Multicollinearity) :在多元回归中,任何一个自变量都不能是其他自变量的完全线性组合。这意味着矩阵 X ′ X \mathbf{X}'\mathbf{X} X ′ X 是可逆的。
零条件均值 (Zero Conditional Mean) :误差项的期望值在给定任何自变量值的情况下都为零,即 E ( u i ∣ X 1 i , … , X k i ) = 0 E(u_i | X_{1i}, \dots, X_{ki}) = 0 E ( u i ∣ X 1 i , … , X ki ) = 0 。这是最关键的假设,它保证了OLS估计量的无偏性 。如果这个假设不成立(例如,由于遗漏变量偏误 或联立性偏误 ),OLS估计量将是有偏的。
同方差 (Homoskedasticity) :误差项的方差在给定任何自变量值的情况下都是一个常数,即 Var ( u i ∣ X 1 i , … , X k i ) = σ 2 \text{Var}(u_i | X_{1i}, \dots, X_{ki}) = \sigma^2 Var ( u i ∣ X 1 i , … , X ki ) = σ 2 。如果方差随 X X X 的变化而变化,则称存在异方差 (Heteroskedasticity)。
无自相关 (No Serial Correlation / Autocorrelation) :不同观测值的误差项之间不相关,即对于 i ≠ j i \neq j i = j ,Cov ( u i , u j ∣ X ) = 0 \text{Cov}(u_i, u_j | \mathbf{X}) = 0 Cov ( u i , u j ∣ X ) = 0 。这个假设在处理时间序列数据 时尤为重要。
OLS估计量的性质
在满足高斯-马尔可夫假设(前五个或前六个,取决于数据类型)的前提下,OLS估计量 β ^ \hat{\beta} β ^ 具有以下良好性质:
无偏性 (Unbiasedness) :E ( β ^ ) = β E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta} E ( β ^ ) = β 。这意味着,如果我们反复从总体中抽样并进行回归,得到的估计值的平均值会等于真实的总体参数。有效性 (Efficiency) :在所有的线性无偏估计量中,OLS估计量具有最小的方差。这就是高斯-马尔可夫定理 的核心内容,即OLS是BLUE (Best Linear Unbiased Estimator)。一致性 (Consistency) :当样本容量 n → ∞ n \to \infty n → ∞ 时,OLS估计量 β ^ \hat{\boldsymbol{\beta}} β ^ 依概率收敛于真实的参数 β \boldsymbol{\beta} β 。这意味着随着样本量的增加,我们的估计会越来越接近真实值。
如果高斯-马尔可夫假设中的某一条被违反(例如出现异方差或自相关),OLS估计量可能不再是“最佳”的(即不再具有最小方差),但只要零条件均值假设(假设4)仍然成立,它通常仍然是无偏和一致的。在这种情况下,需要使用修正的标准误(如异方差稳健标准误)或采用更高级的估计方法(如广义最小二乘法 )。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。