最小二乘估计 (Least Squares Estimator)
最小二乘估计 (Least Squares Estimator),通常指 普通最小二乘法 (Ordinary Least Squares, OLS),是 计量经济学 和 统计学 中最基本、最核心的一种参数估计方法。其核心思想是,通过寻找一组参数,使得模型预测值与实际观测值之间的 残差 平方和 (Sum of Squared Residuals, SSR) 达到最小。通过这种方法得到的估计量,被称为最小二乘估计量。
此方法被广泛应用于 线性回归模型 (Linear Regression Model) 的参数估计中,旨在找到一条能够"最佳拟合"样本数据的直线或超平面。
核心思想与直觉
假设我们有一组数据点 (Xi,Yi),我们相信变量 X 和 Y 之间存在一种近似的线性关系。我们的目标是找到一条直线 Y^=β^0+β^1X 来描述这种关系。
对于每一个观测点 Xi,我们有一个真实的观测值 Yi 和一个模型预测值 Y^i。两者之间的差异被称为 残差 (residual),记为 u^i:
u^i=Yi−Y^i
这个残差代表了模型未能解释的部分,可以看作是估计误差。
最小二乘法的目标就是让整体的误差最小化。但我们不能简单地将所有残差相加,因为正负残差会相互抵消。因此,我们采用平方的方式来处理残差:
- 平方处理:将每个残差进行平方,即 u^i2。这确保了所有误差项都为正数,避免了正负抵消的问题。同时,平方操作会不成比例地加大较大误差的"惩罚",使得估计结果对 异常值 (Outlier) 较为敏感。
- 求和:将所有平方后的残差相加,得到 残差平方和 (Sum of Squared Residuals, SSR)。 \[ SSR = \sum_{i=1}^{n} \hat{u}_i^2 \]
- 最小化:调整模型的参数(例如,直线的截距 β^0 和斜率 β^1),以使这个 SSR 达到最小值。
从几何上看,最小二乘法就是在寻找一条直线,使得所有数据点到这条直线的 纵向距离 (Vertical Distance) 的平方和最小。
数学推导
简单线性回归 (Simple Linear Regression)
考虑一个简单的线性回归模型:
Yi=β0+β1Xi+ui
其中,Yi 是 因变量,Xi 是 自变量,β0 和 β1 是未知的总体参数(截距 和 斜率),ui 是 误差项。
我们的目标是找到参数的估计值 β^0 和 β^1,以最小化残差平方和:
SSR(β^0,β^1)=i=1∑n(Yi−Y^i)2=i=1∑n(Yi−β^0−β^1Xi)2
为了找到使 SSR 最小化的 β^0 和 β^1,我们使用 微积分 中的最优化方法,即分别对 β^0 和 β^1 求 偏导数,并令其等于零。
∂β^0∂SSR=−2∑(Yi−β^0−β^1Xi)=0
∂β^1∂SSR=−2∑Xi(Yi−β^0−β^1Xi)=0
求解这个由两个方程组成的线性方程组(被称为 正规方程组, Normal Equations),我们可以得到 OLS 估计量的解析解:
β^1=∑i=1n(Xi−Xˉ)2∑i=1n(Xi−Xˉ)(Yi−Yˉ)=Var(X)Cov(X,Y)
β^0=Yˉ−β^1Xˉ
其中,Xˉ 和 Yˉ 分别是 X 和 Y 的样本均值,Cov(X,Y) 是样本协方差,Var(X) 是样本方差。
多元线性回归(矩阵形式)
在更一般的情况下,我们有一个 多元线性回归模型,包含多个自变量。使用 矩阵 表示法会使表达和推导更为简洁。模型可以写作:
y=Xβ+u
其中:
- y 是一个 n×1 的因变量观测值向量。
- X 是一个 n×(k+1) 的设计矩阵,包含了 k 个自变量和一列用于表示截距的 1。
- β 是一个 (k+1)×1 的未知参数向量。
- u 是一个 n×1 的误差向量。
残差向量为 u^=y−Xβ^。残差平方和可以表示为向量内积:
SSR=u^′u^=(y−Xβ^)′(y−Xβ^)=y′y−2β^′X′y+β^′X′Xβ^
对向量 β^ 求导并令其为零,我们得到正规方程组的矩阵形式:
X′Xβ^=X′y
假设矩阵 X′X 是可逆的(即不存在完全的 多重共线性),我们可以解出 OLS 估计量的矩阵表达式:
β^OLS=(X′X)−1X′y
这个公式是计量经济学中最为著名的公式之一,它为计算任意数量自变量的线性模型的系数提供了一个统一的框架。
OLS 估计量的统计性质
最小二乘估计量之所以被广泛使用,不仅因为其直观和计算简便,更重要的是它在特定假设下拥有的优良统计性质。这些性质由著名的 高斯-马尔可夫定理 (Gauss-Markov Theorem) 所保证。
在高斯-马尔可夫假设(包括线性关系、随机抽样、无完全共线性、零条件均值和 同方差性)下,OLS 估计量是 最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。
- 无偏性 (Unbiasedness):这意味着估计量的期望值等于总体的真实参数值,即 E(β^)=β。换言之,如果我们反复进行抽样和估计,估计值的平均值会趋近于真实的参数值。无偏性是保证估计可靠性的基本要求。
- 线性 (Linearity):OLS 估计量是因变量 y 的线性函数,如 β^=(X′X)−1X′y=Ay。
- 最佳 (Best):指在所有线性和无偏的估计量中,OLS 估计量具有最小的 方差。这意味着 OLS 估计量最有效率、最精确。一个方差更小的估计量意味着其抽样分布更加集中在真实参数值的周围。
如果额外假设误差项服从 正态分布,那么 OLS 估计量也服从正态分布,这为进行 假设检验(如 t-检验和 F-检验)和构建 置信区间 提供了理论基础。
局限性与扩展
尽管 OLS 功能强大,但它的优良性质依赖于一系列严格的假设。当这些假设被违背时,OLS 估计量可能不再是"BLUE",甚至可能产生误导性的结果。
- 内生性 (Endogeneity):当误差项与自变量相关时(违背了零条件均值假设),例如存在 遗漏变量偏误 或 联立性偏误,OLS 估计量将是有偏的 (biased) 和非一致的 (inconsistent)。此时需要使用如 工具变量法 (Instrumental Variable) 或 广义矩方法 (GMM) 等更高级的方法。
- 异方差性 (Heteroscedasticity):当误差项的方差随自变量的变化而变化时(违背了同方差性假设),OLS 估计量虽然仍是无偏的,但不再是"最佳"的,并且其标准误的计算会出错,导致假设检验失效。解决方法包括使用 异方差稳健标准误 或采用 加权最小二乘法 (Weighted Least Squares, WLS)。
- 序列相关 (Serial Correlation):在 时间序列数据 中,误差项可能与其自身的滞后值相关。这同样会使 OLS 估计量的标准误失效。
因此,在应用最小二乘法时,进行相应的诊断检验以验证其 underlying assumptions 是至关重要的步骤。常用的诊断工具包括 Breusch-Pagan 检验 用于检测异方差性、Durbin-Watson 检验 用于检测一阶序列相关,以及 方差膨胀因子 (VIF) 用于评估多重共线性的严重程度。当诊断检验揭示假设违背时,研究者应转向适当的替代估计方法,而非简单地依赖 OLS 的标准输出。