ARTICLE

最小二乘法 (OLS)

最小二乘法 (Ordinary Least Squares, OLS) 最小二乘法（Ordinary Least Squares, OLS）是计量经济学和统计学中最基本、最常用的参数估计方法。它广泛应用于线性回归模型，其核心思想是通过最小化观测值与模型预测值之间差值的平方和，来估计模型参数，从而获得数据的最佳拟合直线（或超平面）。模型设定与核心思想假设有

浏览 0 更新 2025-10-26

最小二乘法 (Ordinary Least Squares, OLS)

最小二乘法（Ordinary Least Squares, OLS）是计量经济学和统计学中最基本、最常用的参数估计方法。它广泛应用于线性回归模型，其核心思想是通过最小化观测值与模型预测值之间差值的平方和，来估计模型参数，从而获得数据的最佳拟合直线（或超平面）。

模型设定与核心思想

假设有一个因变量 $Y$ 和 $k$ 个自变量 $X_1, X_2, \ldots, X_k$ ，多元线性回归模型可表示为：

Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \cdots + \beta_k X_{ki} + u_i, \quad i = 1, 2, \ldots, n

其中 $\beta_j$ 是待估计的回归系数， $u_i$ 是误差项，代表模型未能解释的部分。OLS的目标是找到估计值 $\hat{\beta}_j$ ，使得残差平方和（Sum of Squared Residuals, SSR）最小化：

\min_{\hat{\beta}_0, \ldots, \hat{\beta}_k} \, \text{SSR} = \sum_{i=1}^{n} \hat{u}_i^2 = \sum_{i=1}^{n} \left(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_{1i} - \cdots - \hat{\beta}_k X_{ki}\right)^2

OLS估计量的推导

通过微积分求解上述优化问题——对SSR求关于各 $\hat{\beta}_j$ 的偏导数并令其为零——得到正规方程组。求解该方程组可得OLS估计量的解析表达式。

一元回归情形：对于模型 $Y_i = \beta_0 + \beta_1 X_i + u_i$ ，有

\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}, \quad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}

多元回归情形：用矩阵表示更为简洁。模型为 $Y = X\beta + u$ ，其中 $Y$ 是 $n \times 1$ 向量， $X$ 是 $n \times (k+1)$ 设计矩阵， $\beta$ 是 $(k+1) \times 1$ 参数向量。OLS估计量为：

\hat{\beta} = (X'X)^{-1} X'Y

该公式要求 $X'X$ 可逆，即自变量之间不存在完全多重共线性。

高斯-马尔可夫定理与BLUE性质

高斯-马尔可夫定理（Gauss-Markov Theorem）是OLS的理论基石。在经典线性模型（CLM）假设下，OLS估计量是最佳线性无偏估计量（Best Linear Unbiased Estimator, BLUE）。

核心假设包括：

参数线性：模型是参数的线性函数。
随机抽样：样本来自总体的随机抽样。
无完全共线性：自变量之间不存在精确线性关系。
零条件均值： $E(u|X) = 0$ ，即误差项与自变量无关——这是最关键的条件，违反它将导致内生性问题。
同方差性： $\text{Var}(u|X) = \sigma^2$ ，即误差项方差恒定；违反时存在异方差性。

BLUE的含义：

最佳（Best）：在所有线性无偏估计量中方差最小，最为有效。
线性（Linear）： $\hat{\beta}$ 是 $Y$ 的线性组合。
无偏（Unbiased）： $E(\hat{\beta}) = \beta$ ，即平均而言估计准确。

模型评价与推断

拟合优度：可决系数 $R^2$ 衡量自变量对因变量总变异的解释比例，取值在 $[0, 1]$ 之间。调整 $R^2$ 对自变量个数进行惩罚，防止盲目添加变量。

统计推断：

t检验：检验单个回归系数是否显著不为零，原假设为 $H_0: \beta_j = 0$ 。
F检验：检验所有自变量的联合显著性，原假设为所有斜率系数同时为零。
置信区间：构造参数的真实值范围，通常使用95\%置信区间。

常见问题与应对

异方差性：导致标准误估计有偏，使t检验和F检验失效。解决方法是使用稳健标准误（如Eicker-Huber-White标准误）或加权最小二乘法。
多重共线性：自变量间高度相关时，估计量方差膨胀，系数不稳定。可通过方差膨胀因子（VIF）诊断。
内生性（如遗漏变量偏误、联立性、测量误差）：导致OLS有偏且不一致，是最严重的问题。需使用工具变量法（IV）或两阶段最小二乘法（2SLS）。
异常值：OLS对极端值敏感，应通过残差诊断识别。

总结

最小二乘法是回归分析的基石。它原理直观、计算简便、在经典假设下具有最优性质，是经济学、金融学和社会科学实证研究中最广泛使用的估计方法。然而，实践中必须仔细检验模型假设是否成立，并在假设违背时采取适当的修正措施。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。