ARTICLE

普通最小二 överes (Ordinary Least Squares, OLS)

普通最小二乘法 (Ordinary Least Squares, OLS) 普通最小二乘法 (Ordinary Least Squares, OLS) 是计量经济学和统计学中最基本的参数估计方法，广泛应用于线性回归模型。其核心思想是寻找一组参数估计值公式，使得模型预测值公式与实际观测值公式之间的残差平方和达到最小。这一准则在数学上简洁优美，在理论

浏览 0 更新 2026-05-26

普通最小二乘法 (Ordinary Least Squares, OLS)

普通最小二乘法 (Ordinary Least Squares, OLS) 是计量经济学和统计学中最基本的参数估计方法，广泛应用于线性回归模型。其核心思想是寻找一组参数估计值 $\hat{\boldsymbol{\beta}}$ ，使得模型预测值 $\hat{Y}_i$ 与实际观测值 $Y_i$ 之间的残差平方和达到最小。这一准则在数学上简洁优美，在理论上具备一系列优良的统计性质，是学习更高级估计方法（如广义最小二乘法、工具变量法、极大似然估计）的基石。

模型设定

考虑多元线性回归模型：

Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \cdots + \beta_k X_{ik} + u_i, \quad i = 1, 2, \dots, n

其中 $Y_i$ 为因变量， $X_{ij}$ 为第 $j$ 个自变量， $\beta_j$ 为待估参数， $u_i$ 为误差项。用矩阵形式可简洁表示为：

\mathbf{Y} = \mathbf{X} \boldsymbol{\beta} + \mathbf{u}

其中 $\mathbf{Y}$ 为 $n \times 1$ 向量， $\mathbf{X}$ 为 $n \times (k+1)$ 设计矩阵， $\boldsymbol{\beta}$ 为 $(k+1) \times 1$ 参数向量， $\mathbf{u}$ 为 $n \times 1$ 误差向量。

最小化问题

OLS 估计量 $\hat{\boldsymbol{\beta}}$ 通过求解以下无约束优化问题得到：

\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} (Y_i - \mathbf{X}_i' \boldsymbol{\beta})^2

或等价地：

\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} (\mathbf{Y} - \mathbf{X} \boldsymbol{\beta})' (\mathbf{Y} - \mathbf{X} \boldsymbol{\beta})

展开目标函数 $S(\boldsymbol{\beta}) = \mathbf{Y}'\mathbf{Y} - 2\boldsymbol{\beta}'\mathbf{X}'\mathbf{Y} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta}$ ，求一阶条件：

\frac{\partial S(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = -2\mathbf{X}'\mathbf{Y} + 2\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = 0

解得：

\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1} \mathbf{X}'\mathbf{Y}

这就是 OLS 估计量的闭式解。其几何意义是将 $\mathbf{Y}$ 正交投影到 $\mathbf{X}$ 的列空间上： $\hat{\mathbf{Y}} = \mathbf{P}\mathbf{Y}$ ，其中投影矩阵 $\mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'$ 。残差向量 $\hat{\mathbf{u}} = \mathbf{Y} - \hat{\mathbf{Y}}$ 与 $\mathbf{X}$ 的列空间正交，体现了 OLS 的"最小二乘"本质——残差在欧几里得范数下达到最短。该解的存在性要求 $\mathbf{X}'\mathbf{X}$ 可逆，即设计矩阵满秩——换言之，自变量之间不存在完全多重共线性。

Gauss-Markov 定理

Gauss-Markov 定理是 OLS 的理论基石。在以下经典假设下：

线性性：模型对参数线性。
严格外生性： $\mathbb{E}[u_i \mid \mathbf{X}] = 0$ ，即误差项条件均值为零。
球形误差： $\text{Var}[u_i \mid \mathbf{X}] = \sigma^2$ （同方差性）且 $\text{Cov}(u_i, u_j \mid \mathbf{X}) = 0$ （无自相关）。
满秩： $\mathbf{X}$ 列满秩。

Gauss-Markov 定理断言：OLS 估计量 $\hat{\boldsymbol{\beta}}$ 是所有线性无偏估计量中方差最小的，即 BLUE（Best Linear Unbiased Estimator）。这意味着，在经典假设框架内，不存在任何其他线性无偏估计量能在更小的方差意义上优于 OLS。这一结论不依赖于正态分布假设，是 OLS 相对其他估计方法的关键优势。

有限样本性质

在 Gauss-Markov 假设下，OLS 具备以下有限样本性质：

无偏性： $\mathbb{E}[\hat{\boldsymbol{\beta}} \mid \mathbf{X}] = \boldsymbol{\beta}$ 。
条件方差： $\text{Var}[\hat{\boldsymbol{\beta}} \mid \mathbf{X}] = \sigma^2 (\mathbf{X}'\mathbf{X})^{-1}$ 。
误差方差估计： $\hat{\sigma}^2 = \frac{1}{n-k-1} \sum \hat{u}_i^2$ 是 $\sigma^2$ 的无偏估计，其中 $\hat{u}_i = Y_i - \mathbf{X}_i'\hat{\boldsymbol{\beta}}$ 为残差。
正态性：若进一步假设 $u_i \mid \mathbf{X} \sim \mathcal{N}(0, \sigma^2)$ ，则 $\hat{\boldsymbol{\beta}}$ 服从正态分布，从而精确的 t 检验和 F 检验可行。

大样本性质

当样本量 $n \to \infty$ 时，即使放松严格外生性或正态性假设，OLS 仍保持良好的大样本性质：

一致性： $\hat{\boldsymbol{\beta}} \xrightarrow{p} \boldsymbol{\beta}$ ，即估计量依概率收敛到真值。一致性要求 $\mathbb{E}[X_i u_i] = 0$ ，只要解释变量与误差项正交，即使存在条件异方差，OLS 仍保持一致。
渐近正态性： $\sqrt{n}(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \xrightarrow{d} \mathcal{N}(0, \mathbf{\Sigma})$ ，其中 $\mathbf{\Sigma}$ 为渐近协方差矩阵。
渐近有效性：在适当正则条件下，OLS 在线性估计类中渐近有效。

这些大样本性质使得 OLS 在违背经典假设（如轻微异方差或非正态误差）时仍可可靠使用，只需使用稳健标准误（如 Eicker-Huber-White 标准误）进行推断即可。

拟合优度与模型评价

OLS 估计完成后，常用以下指标评价模型拟合效果：

$R^2$ （判定系数）： $R^2 = 1 - \frac{\text{RSS}}{\text{TSS}}$ ，衡量自变量对因变量变异的解释比例。 $R^2$ 介于 $[0,1]$ 之间，越接近 1 表示拟合越好，但增加自变量总会使 $R^2$ 上升，因此需使用调整 $R^2$ 。
调整 $R^2$ ： $\bar{R}^2 = 1 - \frac{\text{RSS} / (n-k-1)}{\text{TSS} / (n-1)}$ ，对自变量个数施加惩罚，避免过度拟合。
F 检验：检验所有斜率系数是否同时为零，判断模型整体显著性。F 统计量定义为 $F = \frac{(\text{TSS} - \text{RSS}) / k}{\text{RSS} / (n - k - 1)}$ ，在正态性假设下服从 $F_{k, n-k-1}$ 分布。
信息准则：AIC 和 BIC 在模型选择中权衡拟合优度与模型复杂度。AIC 侧重于预测精度，BIC 则对参数个数施加更强惩罚，适用于寻找真实模型维度的场景。
赤池信息准则与贝叶斯信息准则：两者均基于对数似然函数值构造，但惩罚项不同： $\text{AIC} = -2\ln L + 2k$ ， $\text{BIC} = -2\ln L + k\ln n$ 。当样本量较大时，BIC 倾向于选择更简约的模型。

假设检验

在 OLS 框架下，最常见的检验包括：

单个系数的 t 检验： $H_0: \beta_j = \beta_j^0$ ，统计量 $t = (\hat{\beta}_j - \beta_j^0) / \text{SE}(\hat{\beta}_j)$ ，在正态性假设下服从 $t_{n-k-1}$ 分布。
多个线性约束的 F 检验：检验 $H_0: \mathbf{R}\boldsymbol{\beta} = \mathbf{r}$ ，使用受约束与无约束模型的残差平方和之差构造 F 统计量。
联合显著性 F 检验：检验所有斜率系数同时为零的显著性。F 统计量定义为 $F = \frac{(\text{RSS}_r - \text{RSS}_u) / q}{\text{RSS}_u / (n - k - 1)}$ ，其中 $q$ 为约束个数， $\text{RSS}_r$ 和 $\text{RSS}_u$ 分别为受约束与无约束模型的残差平方和。
线性假设的 Wald 检验：在大样本下，Wald 统计量渐近服从 $\chi^2$ 分布，不要求误差正态性，适用于更一般的推断场景。

重要扩展与局限

尽管 OLS 理论优雅且应用广泛，在实际应用中仍需注意以下局限与扩展：

异方差：当 $\text{Var}[u_i \mid \mathbf{X}]$ 非常数时，OLS 仍是无偏且一致的，但标准误有偏。解决方案包括稳健标准误（White 标准误）或使用加权最小二乘法 (WLS)。
自相关：在时间序列数据中，误差项跨期相关。可使用Newey-West 标准误或广义最小二乘法 (GLS) 处理。
内生性：当 $\mathbb{E}[u \mid \mathbf{X}] \neq 0$ （如遗漏变量、测量误差或联立性），OLS 不再一致。此时需使用工具变量法 (IV) 或两阶段最小二乘法 (2SLS)。
多重共线性：自变量高度相关时， $(\mathbf{X}'\mathbf{X})^{-1}$ 接近奇异，导致估计量方差膨胀，但 OLS 仍为 BLUE。方差膨胀因子 (VIF) 是检测共线性的常用指标，一般认为 VIF > 10 需引起关注。
异常值与强影响点：OLS 对异常值敏感，单个极端观测可能大幅改变估计结果。稳健回归方法（如 Huber-White 估计或分位数回归）可提供互补信息。Cook 距离和杠杆值是诊断强影响点的常用统计量。
模型设定偏误：遗漏重要变量、错误设定函数形式（如忽略非线性关系）或包含无关变量均会影响 OLS 的性质。模型设定检验（如 Ramsey RESET 检验）有助于诊断此类问题。

历史与发展

最小二乘法的思想最早由 Carl Friedrich Gauss 于 1795 年提出，并于 1809 年在《天体运动论》中正式发表。法国数学家 Adrien-Marie Legendre 于 1805 年独立发表相同方法。Gauss 还率先指出了该方法在正态分布假设下的最优性，奠定了Gauss-Markov 定理的基础。20 世纪中叶，随着计算技术的突破，OLS 从理论工具转化为实证研究的日常武器。今天，OLS 是经济学、金融学、社会学、政治学、流行病学等学科的标配分析工具，也是机器学习中线性回归算法的理论原型。

总结

普通最小二乘法以其简洁的数学形式、清晰的几何解释和扎实的统计理论，成为数据科学中最具影响力的方法之一。理解 OLS 的前提条件、估计原理、推断逻辑及其局限性，是掌握现代计量经济学和统计学习的第一步。无论是作为独立分析工具，还是作为更复杂模型（如Lasso、岭回归、广义线性模型）的对照基准，OLS 始终占据着不可替代的核心地位。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。