ARTICLE

OLS正规方程

OLS 正规方程 (OLS Normal Equations) OLS 正规方程是普通最小二乘估计中,通过对残差平方和求一阶条件所得到的一组线性方程组。求解该方程组即可得到回归系数的 OLS 估计量 = ( X' X)^-1 X' y。正规方程是OLS估计的计算核心,也是理解线性回归代数结构的关键入口。 推导过程 考虑线性回归模型 y = X + ,其中 y

浏览 0 更新 2026-05-25

OLS 正规方程 (OLS Normal Equations)

OLS 正规方程普通最小二乘估计中,通过对残差平方和求一阶条件所得到的一组线性方程组。求解该方程组即可得到回归系数的 OLS 估计量 β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}。正规方程是OLS估计的计算核心,也是理解线性回归代数结构的关键入口。

推导过程

考虑线性回归模型 y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon},其中 y\mathbf{y}n×1n \times 1 的因变量向量,X\mathbf{X}n×kn \times k 的设计矩阵,β\boldsymbol{\beta}k×1k \times 1 的未知参数向量。OLS 的目标是最小化残差平方和 (SSR):

S(β)=εε=(yXβ)(yXβ)S(\boldsymbol{\beta}) = \boldsymbol{\varepsilon}'\boldsymbol{\varepsilon} = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})

将 SSR 展开:

S(β)=yy2yXβ+βXXβS(\boldsymbol{\beta}) = \mathbf{y}'\mathbf{y} - 2\mathbf{y}'\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\beta}'\mathbf{X}'\mathbf{X}\boldsymbol{\beta}

β\boldsymbol{\beta} 求梯度并令其为零。利用矩阵求导法则 (aβ)β=a\frac{\partial (\mathbf{a}'\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = \mathbf{a} 以及 (βAβ)β=2Aβ\frac{\partial (\boldsymbol{\beta}'\mathbf{A}\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = 2\mathbf{A}\boldsymbol{\beta}(当 A\mathbf{A} 对称时):

Sβ=2Xy+2XXβ=0\frac{\partial S}{\partial \boldsymbol{\beta}} = -2\mathbf{X}'\mathbf{y} + 2\mathbf{X}'\mathbf{X}\boldsymbol{\beta} = \mathbf{0}

整理即得 正规方程

XXβ^=Xy\boxed{\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{y}}

这套由 kk 个方程构成的线性方程组等价于将每个解释变量与残差正交化:第 jj 个方程为 xj(yXβ^)=0\mathbf{x}_j'(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) = 0,即第 jj 个解释变量与 OLS 残差向量的内积为零。这是 OLS 残差与所有解释变量正交的代数体现。

矩阵形式与求解

正规方程的矩阵形式清晰展现了其分块结构:

[x1x1x1x2x1xkx2x1x2x2x2xkxkx1xkx2xkxk][β^1β^2β^k]\begin{bmatrix} \mathbf{x}_1'\mathbf{x}_1 & \mathbf{x}_1'\mathbf{x}_2 & \cdots & \mathbf{x}_1'\mathbf{x}_k \\ \mathbf{x}_2'\mathbf{x}_1 & \mathbf{x}_2'\mathbf{x}_2 & \cdots & \mathbf{x}_2'\mathbf{x}_k \\ \vdots & \vdots & \ddots & \vdots \\ \mathbf{x}_k'\mathbf{x}_1 & \mathbf{x}_k'\mathbf{x}_2 & \cdots & \mathbf{x}_k'\mathbf{x}_k \end{bmatrix} \begin{bmatrix} \hat{\beta}_1 \\ \hat{\beta}_2 \\ \vdots \\ \hat{\beta}_k \end{bmatrix}

=

\begin{bmatrix} \(\mathbf{x}_1\)'\(\mathbf{y}\) \\ \(\mathbf{x}_2\)'\(\mathbf{y}\) \\ \vdots \\ \(\mathbf{x}_k\)'\(\mathbf{y}\) \[ \end{bmatrix}

\]

XX\mathbf{X}'\mathbf{X} 可逆(即设计矩阵列满秩,不存在严格多重共线性)时,OLS 估计量有唯一解:

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

对于简单线性回归 yi=β0+β1xi+εiy_i = \beta_0 + \beta_1 x_i + \varepsilon_i,正规方程退化为两个标量方程:

nβ^0+β^1xi=yiβ^0xi+β^1xi2=xiyi\begin{aligned} n\hat{\beta}_0 + \hat{\beta}_1\sum x_i &= \sum y_i \\ \hat{\beta}_0\sum x_i + \hat{\beta}_1\sum x_i^2 &= \sum x_i y_i \end{aligned}

由此解出熟知的公式 β^1=(xixˉ)(yiyˉ)(xixˉ)2\hat{\beta}_1 = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2}β^0=yˉβ^1xˉ\hat{\beta}_0 = \bar{y} - \hat{\beta}_1\bar{x}

几何直觉

正规方程 XXβ^=Xy\mathbf{X}'\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\mathbf{y} 可改写为 X(yXβ^)=0\mathbf{X}'(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) = \mathbf{0},即 Xε^=0\mathbf{X}'\hat{\boldsymbol{\varepsilon}} = \mathbf{0}。这意味着残差向量 ε^\hat{\boldsymbol{\varepsilon}} 与设计矩阵 X\mathbf{X} 的所有列向量正交。从几何角度看,OLS 拟合值 y^=Xβ^\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}}y\mathbf{y}X\mathbf{X} 的列空间上的正交投影——正规方程正是投影算子 P=X(XX)1X\mathbf{P} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' 的构造基础。

性质与应用

正规方程直接导出 OLS 的若干核心性质:

  • 一阶条件保证:正规方程是 SSR 最小化的必要条件。当 XX\mathbf{X}'\mathbf{X} 正定时,二阶条件自动满足,所得解为全局最小值。
  • 线性性β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}y\mathbf{y} 的线性函数,这是Gauss-Markov 定理成立的前提之一。
  • 无偏性条件:若 E(εX)=0\mathbb{E}(\boldsymbol{\varepsilon} \mid \mathbf{X}) = \mathbf{0},代入正规方程可得 E(β^X)=β\mathbb{E}(\hat{\boldsymbol{\beta}} \mid \mathbf{X}) = \boldsymbol{\beta}
  • 数值计算:实践中通常不直接求逆,而是通过 QR 分解或 Cholesky 分解求解正规方程,以提高数值稳定性。

当误差项存在异方差或自相关时,正规方程可推广为广义最小二乘 (GLS) 的形式:XΩ1Xβ^=XΩ1y\mathbf{X}'\boldsymbol{\Omega}^{-1}\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}'\boldsymbol{\Omega}^{-1}\mathbf{y},其中 Ω\boldsymbol{\Omega} 为误差协方差矩阵。这一推广保持了正规方程"加权正交"的核心思想。