# OLS的矩阵表示 (OLS in Matrix Form)
**普通最小二乘法** ({{{Ordinary Least Squares}}}, OLS) 是{{{计量经济学}}}和{{{统计学}}}中最基本、最核心的参数估计方法,用于估计{{{线性回归模型}}}的未知参数。当我们处理只有一个或两个自变量的简单模型时,使用代数形式进行推导和计算是可行的。但是,在现实世界的应用中,我们通常需要处理包含多个{{{自变量}}}的 **多元线性回归模型** 。在这种情况下,传统的代数表示法会变得异常繁琐和复杂。
为了解决这个问题,我们引入 **矩阵表示法** 。这是一种极为强大和简洁的工具,它不仅能将复杂的多元回归模型用一个简单的方程表示,还为我们推导OLS估计量的统计性质以及进行计算机编程实现提供了坚实的数学基础。可以说,掌握OLS的矩阵表示是理解现代计量经济学的基石。
## 模型的矩阵设定
首先,让我们从一个标准的多元线性回归模型开始。假设我们有 $n$ 个观测样本,模型中有 $k$ 个自变量。对于第 $i$ 个观测样本,其模型可以写作:
$$ y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_k x_{ik} + u_i $$
其中: * $y_i$ 是第 $i$ 个观测样本的{{{因变量}}}。 * $x_{ij}$ 是第 $i$ 个观测样本的第 $j$ 个自变量。 * $\beta_0$ 是模型的{{{截距项}}} (intercept)。 * $\beta_1, \beta_2, \dots, \beta_k$ 是各自变量的{{{系数}}} (coefficients),也称为斜率参数。 * $u_i$ 是第 $i$ 个观测样本的{{{误差项}}} (error term)。 * $i = 1, 2, \dots, n$。
为了将其转化为矩阵形式,我们将这 $n$ 个方程堆叠起来,并定义以下向量和矩阵:
1. **因变量向量 $Y$** :一个 $n \times 1$ 的列向量,包含了所有观测样本的因变量值。 $$ Y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} $$
2. **设计矩阵 $X$** (Design Matrix):一个 $n \times (k+1)$ 的矩阵,包含了所有自变量的观测值。 **特别注意** ,第一列全部为1,这是为了对应截距项 $\beta_0$。 $$ X = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1k} \\ 1 & x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{nk} \end{pmatrix} $$
3. **系数向量 $\beta$** :一个 $(k+1) \times 1$ 的列向量,包含了所有待估计的参数。 $$ \beta = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} $$
4. **误差向量 $u$** :一个 $n \times 1$ 的列向量,包含了所有观测样本的误差项。 $$ u = \begin{pmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{pmatrix} $$
通过这些定义,我们可以将 $n$ 个线性方程优雅地表示为单个矩阵方程:
$$ Y = X\beta + u $$
这个简单的方程包含了我们模型的所有信息,并且其形式与简单的 $y = mx + c$ 惊人地相似,展现了矩阵代数的威力。
## OLS估计量的推导
OLS方法的目标是找到一组参数估计值 $\hat{\beta}$,使得模型的 **{{{残差平方和}}}** (Sum of Squared Residuals, SSR) 最小化。{{{残差}}} $\hat{u}_i$ 是真实值 $y_i$ 与拟合值 $\hat{y}_i$ 之间的差异。
在矩阵形式中,残差向量 $\hat{u}$ 可以表示为: $$ \hat{u} = Y - \hat{Y} = Y - X\hat{\beta} $$ 其中 $\hat{Y} = X\hat{\beta}$ 是拟合值向量。
残差平方和 $SSR$ 是残差向量 $\hat{u}$ 与其自身的{{{内积}}},即 $\hat{u}'\hat{u}$: $$ SSR(\hat{\beta}) = \sum_{i=1}^{n} \hat{u}_i^2 = \hat{u}'\hat{u} = (Y - X\hat{\beta})'(Y - X\hat{\beta}) $$
现在,我们来展开这个表达式。根据矩阵转置的运算法则 $(A-B)' = A' - B'$ 以及 $(AB)' = B'A'$,我们得到: $$ SSR(\hat{\beta}) = (Y' - \hat{\beta}'X')(Y - X\hat{\beta}) $$ $$ SSR(\hat{\beta}) = Y'Y - Y'X\hat{\beta} - \hat{\beta}'X'Y + \hat{\beta}'X'X\hat{\beta} $$
注意到 $Y'X\hat{\beta}$ 是一个 $1 \times 1$ 的矩阵,也就是一个标量。对于一个标量,其转置等于其自身。因此,$(\hat{\beta}'X'Y)' = Y'X\hat{\beta}$,这意味着中间两项是相等的。所以,我们可以合并它们: $$ SSR(\hat{\beta}) = Y'Y - 2\hat{\beta}'X'Y + \hat{\beta}'X'X\hat{\beta} $$
为了找到使 $SSR$ 最小化的 $\hat{\beta}$,我们需要对 $SSR(\hat{\beta})$ 关于 $\hat{\beta}$ 求{{{偏导数}}}(技术上说是求{{{梯度}}}),并令其等于零。这里需要用到两个矩阵求导的法则: 1. 对于向量 $a$ 和 $x$,$\frac{\partial(a'x)}{\partial x} = \frac{\partial(x'a)}{\partial x} = a$ 2. 对于对称矩阵 $A$ 和向量 $x$,$\frac{\partial(x'Ax)}{\partial x} = 2Ax$
将这些法则应用于我们的 $SSR$ 表达式(注意 $X'X$ 是一个对称矩阵): $$ \frac{\partial SSR(\hat{\beta})}{\partial \hat{\beta}} = \frac{\partial}{\partial \hat{\beta}}(Y'Y - 2\hat{\beta}'X'Y + \hat{\beta}'X'X\hat{\beta}) $$ $$ \frac{\partial SSR(\hat{\beta})}{\partial \hat{\beta}} = 0 - 2X'Y + 2X'X\hat{\beta} $$
令这个 **一阶条件** (First-Order Condition, FOC) 等于零向量: $$ -2X'Y + 2X'X\hat{\beta} = 0 $$ $$ 2X'X\hat{\beta} = 2X'Y $$ $$ X'X\hat{\beta} = X'Y $$
这个方程被称为 **OLS正规方程** (Normal Equations)。为了解出 $\hat{\beta}$,我们需要用 $(X'X)$ 的{{{逆矩阵}}}左乘等式两边。这要求 $(X'X)$ 必须是可逆的,这在计量经济学中对应着 **“无完全{{{多重共线性}}}”** 的假定。如果存在完全多重共线性,那么 $X$ 矩阵的列将是{{{线性相关}}}的,导致 $(X'X)$ 成为一个{{{奇异矩阵}}},其逆矩阵不存在。
假设 $(X'X)$ 可逆,我们得到OLS估计量的最终表达式:
$$ \hat{\beta}_{OLS} = (X'X)^{-1}X'Y $$
这个公式是整个线性回归理论的核心。它告诉我们,只要有因变量数据 $Y$ 和自变量数据 $X$,我们就可以直接计算出系数的估计值。
## 一个具体的计算示例
假设我们有以下4组关于广告支出(x)和销售额(y)的数据:
| x (千USD) | y (万USD) | | :---: | :---: | | 1 | 2 | | 2 | 3 | | 4 | 6 | | 5 | 7 |
我们想拟合模型 $y_i = \beta_0 + \beta_1 x_i + u_i$。
**1. 构建 $Y$ 和 $X$ 矩阵**
$$ Y = \begin{pmatrix} 2 \\ 3 \\ 6 \\ 7 \end{pmatrix}, \quad X = \begin{pmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 4 \\ 1 & 5 \end{pmatrix} $$
**2. 计算 $X'X$ 和 $X'Y$**
$$ X'X = \begin{pmatrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 4 & 5 \end{pmatrix} \begin{pmatrix} 1 & 1 \\ 1 & 2 \\ 1 & 4 \\ 1 & 5 \end{pmatrix} = \begin{pmatrix} 4 & 12 \\ 12 & 46 \end{pmatrix} $$ $$ X'Y = \begin{pmatrix} 1 & 1 & 1 & 1 \\ 1 & 2 & 4 & 5 \end{pmatrix} \begin{pmatrix} 2 \\ 3 \\ 6 \\ 7 \end{pmatrix} = \begin{pmatrix} 2+3+6+7 \\ 1(2)+2(3)+4(6)+5(7) \end{pmatrix} = \begin{pmatrix} 18 \\ 67 \end{pmatrix} $$
**3. 计算 $(X'X)^{-1}$**
对于一个 $2 \times 2$ 矩阵 $A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}$,其逆矩阵为 $A^{-1} = \frac{1}{ad-bc} \begin{pmatrix} d & -b \\ -c & a \end{pmatrix}$。 行列式为 $\det(X'X) = 4(46) - 12(12) = 184 - 144 = 40$。 $$ (X'X)^{-1} = \frac{1}{40} \begin{pmatrix} 46 & -12 \\ -12 & 4 \end{pmatrix} = \begin{pmatrix} 1.15 & -0.3 \\ -0.3 & 0.1 \end{pmatrix} $$
**4. 计算 $\hat{\beta}$**
$$ \hat{\beta} = (X'X)^{-1}X'Y = \begin{pmatrix} 1.15 & -0.3 \\ -0.3 & 0.1 \end{pmatrix} \begin{pmatrix} 18 \\ 67 \end{pmatrix} $$ $$ \hat{\beta} = \begin{pmatrix} 1.15(18) - 0.3(67) \\ -0.3(18) + 0.1(67) \end{pmatrix} = \begin{pmatrix} 20.7 - 20.1 \\ -5.4 + 6.7 \end{pmatrix} = \begin{pmatrix} 0.6 \\ 1.3 \end{pmatrix} $$
所以,我们得到的OLS估计结果为 $\hat{\beta}_0 = 0.6$ 和 $\hat{\beta}_1 = 1.3$。回归方程为 $\hat{y} = 0.6 + 1.3x$。
## OLS估计量的方差-协方差矩阵
为了进行{{{假设检验}}}和构建{{{置信区间}}},我们还需要知道估计量 $\hat{\beta}$ 的{{{方差}}}。在矩阵形式下,这由一个 **方差-协方差矩阵** $Var(\hat{\beta}|X)$ 来表示。该矩阵的对角线元素是每个系数估计值 $\hat{\beta}_j$ 的方差,非对角线元素是不同系数估计值之间的{{{协方差}}} $Cov(\hat{\beta}_j, \hat{\beta}_k)$。
在{{{高斯-马尔可夫假定}}}下,特别是 **同方差性** ({{{Homoskedasticity}}}) 假定 $Var(u|X) = \sigma^2 I_n$ (其中 $I_n$ 是 $n \times n$ 的单位矩阵),我们可以推导出这个矩阵。
首先,将 $\hat{\beta}$ 的表达式代入: $$ \hat{\beta} = (X'X)^{-1}X'Y = (X'X)^{-1}X'(X\beta + u) = \beta + (X'X)^{-1}X'u $$ 我们看到 $\hat{\beta}$ 是真实参数 $\beta$ 加上一个与误差项相关的部分。由于 $E(u|X)=0$,我们可以证明 $\hat{\beta}$ 是 {{{无偏估计量}}}:$E(\hat{\beta}|X) = \beta$。
现在计算其方差: $$ Var(\hat{\beta}|X) = Var(\beta + (X'X)^{-1}X'u | X) $$ 由于 $\beta$ 是常数,其方差为零: $$ Var(\hat{\beta}|X) = Var((X'X)^{-1}X'u | X) $$ 根据方差算子 $Var(Az) = A Var(z) A'$ 的性质,令 $A = (X'X)^{-1}X'$,我们得到: $$ Var(\hat{\beta}|X) = ((X'X)^{-1}X') Var(u|X) ((X'X)^{-1}X')' $$ $$ = (X'X)^{-1}X' (\sigma^2 I_n) X((X'X)^{-1}) $$ $$ = \sigma^2 (X'X)^{-1}X'X(X'X)^{-1} $$ 由于 $(X'X)^{-1}X'X = I$,表达式最终简化为:
$$ Var(\hat{\beta}|X) = \sigma^2(X'X)^{-1} $$
这是一个极其优美的结果。它表明,OLS估计量的方差-协方差矩阵与误差项的方差 $\sigma^2$ 以及自变量数据结构 $(X'X)^{-1}$ 直接相关。在实际应用中,由于未知的 $\sigma^2$ 通常用其无偏估计量 $\hat{\sigma}^2 = \frac{SSR}{n-k-1}$ 来代替。
## 总结
OLS的矩阵表示法是现代计量分析的通用语言。它不仅提供了一种简洁表示多元回归模型的方法,还使得OLS估计量的推导、几何解释以及统计性质(如方差-协方差矩阵)的证明变得清晰和系统化。所有主流的统计软件(如R, Stata, Python)在底层都是基于这种矩阵运算来执行回归分析的。因此,深刻理解OLS的矩阵形式是从入门学习者迈向高级应用研究者的关键一步。