ARTICLE

最小二乘法 (Ordinary Least Squares, OLS)

最小二乘法 (Ordinary Least Squares, OLS) 最小二乘法（Ordinary Least Squares，简称 OLS）是计量经济学和统计学中最基础、应用最广泛的参数估计方法。其核心思想是：在线性回归模型的框架下，通过最小化残差平方和（Sum of Squared Residuals, SSR）来寻找回归系数的最优估计量。OLS 不仅

浏览 0 更新 2026-05-25

最小二乘法 (Ordinary Least Squares, OLS)

最小二乘法（Ordinary Least Squares，简称 OLS）是计量经济学和统计学中最基础、应用最广泛的参数估计方法。其核心思想是：在线性回归模型的框架下，通过最小化残差平方和（Sum of Squared Residuals, SSR）来寻找回归系数的最优估计量。OLS 不仅是理解更复杂估计方法（如广义最小二乘法、最大似然估计、工具变量法）的理论起点，也是实证研究中默认的基准估计策略。

核心思想与几何直觉

给定一组观测数据 $\{(Y_i, X_{i1}, \dots, X_{ik})\}_{i=1}^n$ ，我们假设因变量 $Y_i$ 与自变量 $X_{i1}, \dots, X_{ik}$ 之间存在线性关系：

Y_i = \beta_0 + \beta_1 X_{i1} + \cdots + \beta_k X_{ik} + u_i, \quad i = 1, \dots, n

其中 $u_i$ 为不可观测的扰动项（误差项）。OLS 的目标是找到一组系数 $\hat{\beta}_0, \hat{\beta}_1, \dots, \hat{\beta}_k$ ，使得拟合值 $\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \cdots + \hat{\beta}_k X_{ik}$ 与实际观测值 $Y_i$ 之间差距的平方和最小：

\min_{\hat{\beta}_0, \dots, \hat{\beta}_k} \sum_{i=1}^n \left(Y_i - \hat{Y}_i\right)^2 = \min_{\hat{\beta}_0, \dots, \hat{\beta}_k} \sum_{i=1}^n \hat{u}_i^2

其中 $\hat{u}_i = Y_i - \hat{Y}_i$ 称为残差。从几何角度看，OLS 等价于在 $n$ 维观测空间中，将因变量向量 $\mathbf{Y}$ 投影到由自变量列向量张成的子空间上，残差向量 $\hat{\mathbf{u}}$ 与该子空间正交。这一正交性条件直接导出 OLS 的正规方程组。

一元线性回归的推导

在最简单的一元情形 $Y_i = \beta_0 + \beta_1 X_i + u_i$ 中，最小化目标函数 $S(\hat{\beta}_0, \hat{\beta}_1) = \sum_{i=1}^n (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2$ 。对 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 分别求一阶导数并令其为零：

\frac{\partial S}{\partial \hat{\beta}_0} = -2\sum_{i=1}^n (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0

\frac{\partial S}{\partial \hat{\beta}_1} = -2\sum_{i=1}^n X_i(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0

解此正规方程组，得到著名的 OLS 估计量：

\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i - \bar{X})^2} = \frac{\widehat{\operatorname{Cov}}(X, Y)}{\widehat{\operatorname{Var}}(X)}

\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}

斜率估计量 $\hat{\beta}_1$ 具有直观的经济含义： $X$ 每变动一个单位， $Y$ 平均变动 $\hat{\beta}_1$ 个单位。截距 $\hat{\beta}_0$ 确保回归线通过样本均值点 $(\bar{X}, \bar{Y})$ 。

矩阵形式的OLS

对于多元回归，使用矩阵代数可以给出简洁的表示。令 $\mathbf{Y}$ 为 $n \times 1$ 因变量向量， $\mathbf{X}$ 为 $n \times (k+1)$ 设计矩阵（第一列全为 1，对应截距项）， $\boldsymbol{\beta}$ 为 $(k+1) \times 1$ 参数向量， $\mathbf{u}$ 为扰动项向量。模型写为：

\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{u}

残差平方和为 $\hat{\mathbf{u}}'\hat{\mathbf{u}} = (\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}})$ 。对 $\hat{\boldsymbol{\beta}}$ 求导并令其为零向量，得到正规方程：

\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{Y}

假设 $\mathbf{X}'\mathbf{X}$ 可逆（即无完全多重共线性），则 OLS 估计量的矩阵表达式为：

\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y}

这一紧凑形式是所有后续推导的基础。矩阵 $\mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'$ 被称为投影矩阵（或"帽子矩阵"），因为 $\hat{\mathbf{Y}} = \mathbf{P}\mathbf{Y}$ ；而 $\mathbf{M} = \mathbf{I} - \mathbf{P}$ 是残差生成矩阵，满足 $\hat{\mathbf{u}} = \mathbf{M}\mathbf{Y}$ 。

高斯-马尔可夫定理

在满足以下经典线性回归模型假设的条件下，OLS 估计量是最佳线性无偏估计量（Best Linear Unbiased Estimator, BLUE）：

线性性： 模型关于参数是线性的，即 $Y_i = \beta_0 + \beta_1 X_{i1} + \cdots + \beta_k X_{ik} + u_i$ 。
随机抽样： 观测样本 $\{(Y_i, X_{i1}, \dots, X_{ik})\}$ 是从总体中随机抽取的。
无完全多重共线性： 自变量之间不存在精确的线性关系，即 $\mathbf{X}'\mathbf{X}$ 满秩可逆。
零条件均值： $E[u_i \mid X_{i1}, \dots, X_{ik}] = 0$ 。这是最关键的外生性假设，保证了解释变量与扰动项不相关。
同方差性： $\operatorname{Var}(u_i \mid X_{i1}, \dots, X_{ik}) = \sigma^2$ （常数方差）。

若假设 1-4 成立，OLS 是无偏且一致的。若假设 5 也成立，则 OLS 在所有线性无偏估计量中具有最小方差，即高斯-马尔可夫定理成立。若同方差假设被违背（即存在异方差性），OLS 仍然无偏且一致，但不再是有效的；此时应使用异方差稳健标准误（如White 标准误）进行推断。

OLS 估计量的统计性质

方差-协方差矩阵

在假设 1-5 下，OLS 估计量的方差-协方差矩阵为：

\operatorname{Var}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1}

其中 $\sigma^2$ 是扰动项方差的无偏估计量： $\hat{\sigma}^2 = \frac{\hat{\mathbf{u}}'\hat{\mathbf{u}}}{n - k - 1} = \frac{\text{SSR}}{n - k - 1}$ 。分母中的 $n - k - 1$ 是自由度修正。单个系数 $\hat{\beta}_j$ 的标准误为 $\operatorname{SE}(\hat{\beta}_j) = \hat{\sigma} \sqrt{[(\mathbf{X}'\mathbf{X})^{-1}]_{jj}}$ 。

拟合优度： $R^2$

决定系数 $R^2$ 衡量模型对数据变异的解释比例：

R^2 = 1 - \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\sum_{i=1}^n \hat{u}_i^2}{\sum_{i=1}^n (Y_i - \bar{Y})^2}

$R^2$ 的取值范围为 $[0, 1]$ ，越接近 1 表示模型拟合越好。然而， $R^2$ 的一个缺陷是：只要向模型中加入任何新变量（即使与 $Y$ 无关）， $R^2$ 都不会下降。调整后 R 方（ $\bar{R}^2 = 1 - \frac{\text{SSR}/(n-k-1)}{\text{SST}/(n-1)}$ ）通过自由度惩罚额外变量，是更合理的模型比较指标。

OLSE 的大样本性质

在小样本假设之外，OLS 估计量还具有优良的大样本（渐近）性质。在假设 1-4 成立（不强求同方差和正态性）时：

一致性： $\hat{\boldsymbol{\beta}} \xrightarrow{p} \boldsymbol{\beta}$ ，即随着样本量增大，估计量以概率收敛到真实参数值。
渐近正态性： $\sqrt{n}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \xrightarrow{d} N(\mathbf{0}, \mathbf{V})$ ，其中 $\mathbf{V}$ 是渐近方差-协方差矩阵。这一性质使得在大样本下可以用正态分布进行t 检验和F 检验，即使扰动项不服从正态分布。

假设检验

在扰动项正态性假设 $u_i \mid \mathbf{X} \sim N(0, \sigma^2)$ 下，OLS 估计量服从精确的正态分布，可以进行有限样本推断：

单系数检验（t 检验）： 检验 $H_0: \beta_j = 0$ ，构造 t 统计量 $t = \hat{\beta}_j / \operatorname{SE}(\hat{\beta}_j) \sim t_{n-k-1}$ 。
多系数联合检验（F 检验）： 检验 $H_0: \beta_{k-q+1} = \cdots = \beta_k = 0$ （排除性约束），构造 F 统计量： \[ F = \frac{(\text{SSR}_{\text{restricted}} - \text{SSR}_{\text{unrestricted}}) / q}{\text{SSR}_{\text{unrestricted}} / (n - k - 1)} \sim F_{q, n-k-1} \]

OLS 的局限性与扩展

尽管 OLS 是实证工作的基石，其局限性也十分明确。首先，若零条件均值假设被违背（例如遗漏变量、联立性偏误或测量误差），OLS 估计量将是有偏且不一致的。此时需要诉诸工具变量法（两阶段最小二乘法，2SLS）。其次，OLS 对异常值和杠杆点高度敏感，单个极端观测可能大幅扭曲回归线。稳健回归方法（如 Huber 的 M-估计、分位数回归）可减轻此问题。

最后，当因变量为二分变量、计数变量或截断变量时，线性概率模型的 OLS 估计会系统性地错误——Logit 模型、Probit 模型、泊松回归和Tobit 模型等非线性估计方法应运而生。然而，所有这些广义模型的核心思想——通过某种目标函数的极值化寻找参数——都可以追溯到 OLS 的最小化残差平方和原则上。

OLS 之所以经久不衰，不仅因为它在满足假设时的优良统计性质，更因为它为理解参数估计的权衡——偏差与方差、简单与灵活、假设与稳健——提供了一个不可替代的分析框架。掌握 OLS 的假设、推导和局限，是深入学习一切计量经济学方法的前提。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

最小二乘法 (Ordinary Least Squares, OLS)