知经 KNOWECON · 卓越的经济金融统计数学学习平台

线性回归模型的矩阵表示

# 线性回归模型的矩阵表示 (Matrix Representation of Linear Regression Model)

线性回归模型的矩阵表示是将一个{{{线性回归模型}}}(或一组联立的线性方程)用{{{矩阵}}}和{{{向量}}}的代数形式来表达的方法。这种表示方式是现代{{{统计学}}}、{{{计量经济学}}}和{{{机器学习}}}的基石,因为它极大地简化了模型的表达、理论推导和计算机运算。通过矩阵表示,复杂的求和运算可以被转换为简洁的矩阵乘法,使得从简单的双变量回归推广到{{{多元线性回归}}}变得直观和高效。

## 从标量形式到矩阵形式

为了理解矩阵表示的构建过程,我们首先从一个包含 $k$ 个解释变量和 $n$ 个观测样本的{{{多元线性回归模型}}}的标量形式(即单个方程形式)开始。

对于第 $i$ 个观测样本 ($i = 1, 2, \dots, n$),其模型可以写为: $$ y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_k x_{ik} + \epsilon_i $$ 其中: * $y_i$ 是第 $i$ 个观测的{{{因变量}}} (dependent variable)。 * $x_{i1}, x_{i2}, \dots, x_{ik}$ 是与第 $i$ 个观测对应的 $k$ 个{{{自变量}}} (independent variables)。 * $\beta_0$ 是模型的{{{截距项}}} (intercept)。 * $\beta_1, \beta_2, \dots, \beta_k$ 是各个自变量的{{{参数}}} (parameters) 或{{{回归系数}}} (regression coefficients)。 * $\epsilon_i$ 是与第 $i$ 个观测相关的{{{随机误差项}}} (random error term)。

如果我们将所有 $n$ 个观测的方程全部写出来,会得到一个庞大的方程组: $$ \begin{cases} y_1 = \beta_0 + \beta_1 x_{11} + \beta_2 x_{12} + \cdots + \beta_k x_{1k} + \epsilon_1 \\ y_2 = \beta_0 + \beta_1 x_{21} + \beta_2 x_{22} + \cdots + \beta_k x_{2k} + \epsilon_2 \\ \vdots \\ y_n = \beta_0 + \beta_1 x_{n1} + \beta_2 x_{n2} + \cdots + \beta_k x_{nk} + \epsilon_n \end{cases} $$ 这个方程组显得非常冗长。为了简化它,我们引入以下矩阵和向量的定义:

1. 因变量向量 $\mathbf{y}$ (大小为 $n \times 1$): $$ \mathbf{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} $$

2. 设计矩阵 $\mathbf{X}$ (Design Matrix or Regressor Matrix, 大小为 $n \times (k+1)$): $$ \mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1k} \\ 1 & x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{nk} \end{pmatrix} $$ 注意:矩阵 $\mathbf{X}$ 的第一列全部为1。这是为了对应截距项 $\beta_0$。在矩阵乘法中,这一列的1将与 $\beta_0$ 相乘,从而在每个方程中都包含了截距项。

3. 参数向量 $\boldsymbol{\beta}$ (大小为 $(k+1) \times 1$): $$ \boldsymbol{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} $$

4. 误差向量 $\boldsymbol{\epsilon}$ (大小为 $n \times 1$): $$ \boldsymbol{\epsilon} = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix} $$

通过以上定义,整个方程组可以被紧凑地表示为一个单一的矩阵方程:

$$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} $$

这个方程优雅地概括了模型的核心结构。其中,$\mathbf{X}\boldsymbol{\beta}$ 代表了模型的系统性部分(由自变量解释的部分),而 $\boldsymbol{\epsilon}$ 代表了模型的随机部分。

## 普通最小二乘法 (OLS) 估计量的推导

矩阵表示法的最大优势之一在于它能够简洁地推导出{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 的估计量。OLS的目标是找到一个参数估计向量 $\hat{\boldsymbol{\beta}}$,使得残差平方和 (Sum of Squared Residuals, SSR) 最小化。

1. 定义残差向量: {{{残差}}}是观测值 $y_i$ 与{{{拟合值}}} (fitted value) $\hat{y}_i$ 之间的差异。在矩阵形式中,拟合值向量为 $\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}}$。因此,{{{残差向量}}} $\mathbf{e}$ 为: $$ \mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} $$

2. 表达残差平方和: 残差平方和 $SSR = \sum_{i=1}^n e_i^2$ 在矩阵代数中等价于残差向量的内积,即 $\mathbf{e}^T\mathbf{e}$。 $$ SSR(\hat{\boldsymbol{\beta}}) = \mathbf{e}^T\mathbf{e} = (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})^T (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) $$ 展开上式: $$ SSR(\hat{\boldsymbol{\beta}}) = (\mathbf{y}^T - \hat{\boldsymbol{\beta}}^T\mathbf{X}^T)(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) $$ $$ SSR(\hat{\boldsymbol{\beta}}) = \mathbf{y}^T\mathbf{y} - \mathbf{y}^T\mathbf{X}\hat{\boldsymbol{\beta}} - \hat{\boldsymbol{\beta}}^T\mathbf{X}^T\mathbf{y} + \hat{\boldsymbol{\beta}}^T\mathbf{X}^T\mathbf{X}\hat{\boldsymbol{\beta}} $$ 由于 $\hat{\boldsymbol{\beta}}^T\mathbf{X}^T\mathbf{y}$ 是一个标量,它等于其自身的转置 $(\hat{\boldsymbol{\beta}}^T\mathbf{X}^T\mathbf{y})^T = \mathbf{y}^T\mathbf{X}\hat{\boldsymbol{\beta}}$。因此,中间的两项可以合并: $$ SSR(\hat{\boldsymbol{\beta}}) = \mathbf{y}^T\mathbf{y} - 2\hat{\boldsymbol{\beta}}^T\mathbf{X}^T\mathbf{y} + \hat{\boldsymbol{\beta}}^T\mathbf{X}^T\mathbf{X}\hat{\boldsymbol{\beta}} $$

3. 最小化求解 (一阶条件): 为了找到使 $SSR$ 最小的 $\hat{\boldsymbol{\beta}}$,我们需要对 $SSR(\hat{\boldsymbol{\beta}})$ 关于 $\hat{\boldsymbol{\beta}}$ 求导,并令其等于一个零向量。这需要应用{{{矩阵微积分}}}的知识。 $$ \frac{\partial SSR(\hat{\boldsymbol{\beta}})}{\partial \hat{\boldsymbol{\beta}}} = -2\mathbf{X}^T\mathbf{y} + 2(\mathbf{X}^T\mathbf{X})\hat{\boldsymbol{\beta}} $$ 令此导数为零向量 $\mathbf{0}$: $$ -2\mathbf{X}^T\mathbf{y} + 2(\mathbf{X}^T\mathbf{X})\hat{\boldsymbol{\beta}} = \mathbf{0} $$ 整理后得到著名的 正规方程 (Normal Equations): $$ (\mathbf{X}^T\mathbf{X})\hat{\boldsymbol{\beta}} = \mathbf{X}^T\mathbf{y} $$

4. OLS估计量公式: 为了解出 $\hat{\boldsymbol{\beta}}$,我们需要左乘矩阵 $(\mathbf{X}^T\mathbf{X})$ 的逆矩阵。前提是这个逆矩阵存在,即 $\mathbf{X}$ 必须是列满秩的(不存在完全的{{{多重共线性}}})。 $$ \hat{\boldsymbol{\beta}}_{OLS} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} $$ 这就是OLS参数估计量的矩阵表达式。它清晰地表明,只要给定因变量观测向量 $\mathbf{y}$ 和自变量数据矩阵 $\mathbf{X}$,我们就可以直接计算出参数的估计值。

## 经典线性回归模型 (CLRM) 假定的矩阵形式

{{{经典线性回归模型}}} (CLRM) 的核心假定也可以用矩阵语言来简洁地表述。

* 假定1:线性关系 模型是 $\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$,参数 $\boldsymbol{\beta}$ 是线性的。

* 假定2:$\mathbf{X}$ 的满秩性 矩阵 $\mathbf{X}$ 是一个 $n \times (k+1)$ 的矩阵,其秩为 $k+1$ (假设 $n > k+1$)。这意味着 $\mathbf{X}$ 的列向量是线性无关的,即不存在完全的多重共线性。这个假定保证了 $(\mathbf{X}^T\mathbf{X})$ 是可逆的。

* 假定3:严格外生性 给定数据矩阵 $\mathbf{X}$,误差项的条件期望为零: $$ E[\boldsymbol{\epsilon} | \mathbf{X}] = \mathbf{0} $$ 这表明误差项与所有解释变量在所有观测中都不相关。

* 假定4:球形误差 (Spherical Errors) 这个假定包含了{{{同方差性}}} (Homoscedasticity) 和无{{{自相关}}} (No Autocorrelation) 两个方面。 * 同方差性: $Var(\epsilon_i | \mathbf{X}) = \sigma^2$ 对所有 $i$ 成立。 * 无自相关: $Cov(\epsilon_i, \epsilon_j | \mathbf{X}) = 0$ 对所有 $i \neq j$ 成立。 这两个条件可以优雅地合并成一个关于误差向量 $\boldsymbol{\epsilon}$ 的{{{方差-协方差矩阵}}}的假定: $$ Var(\boldsymbol{\epsilon} | \mathbf{X}) = E[\boldsymbol{\epsilon}\boldsymbol{\epsilon}^T | \mathbf{X}] = \sigma^2 \mathbf{I}_n $$ 其中 $\mathbf{I}_n$ 是一个 $n \times n$ 的{{{单位矩阵}}}。对角线元素均为 $\sigma^2$ 体现了同方差性,而非对角线元素均为0体现了无自相关。

## OLS估计量的统计性质

利用矩阵形式,我们可以方便地推导OLS估计量的重要统计性质。

* 无偏性 (Unbiasedness) 在假定1-3下,OLS估计量是无偏的,即 $E[\hat{\boldsymbol{\beta}}] = \boldsymbol{\beta}$。 证明: $$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T(\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}) = \boldsymbol{\beta} + (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\boldsymbol{\epsilon} $$ 取期望: $$ E[\hat{\boldsymbol{\beta}} | \mathbf{X}] = \boldsymbol{\beta} + E[(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\boldsymbol{\epsilon} | \mathbf{X}] = \boldsymbol{\beta} + (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T E[\boldsymbol{\epsilon} | \mathbf{X}] $$ 根据假定3,$E[\boldsymbol{\epsilon} | \mathbf{X}] = \mathbf{0}$,因此: $$ E[\hat{\boldsymbol{\beta}}] = \boldsymbol{\beta} $$

* $\hat{\boldsymbol{\beta}}$ 的方差-协方差矩阵 在假定1-4下,$\hat{\boldsymbol{\beta}}$ 的方差-协方差矩阵为: $$ Var(\hat{\boldsymbol{\beta}} | \mathbf{X}) = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1} $$ 证明: $$ Var(\hat{\boldsymbol{\beta}} | \mathbf{X}) = E[(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta})(\hat{\boldsymbol{\beta}} - \boldsymbol{\beta})^T | \mathbf{X}] $$ 我们已知 $\hat{\boldsymbol{\beta}} - \boldsymbol{\beta} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\boldsymbol{\epsilon}$,代入上式: $$ Var(\hat{\boldsymbol{\beta}} | \mathbf{X}) = E[ ((\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\boldsymbol{\epsilon})(\boldsymbol{\epsilon}^T\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}) | \mathbf{X} ] $$ $$ = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T E[\boldsymbol{\epsilon}\boldsymbol{\epsilon}^T | \mathbf{X}] \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1} $$ 根据假定4,$E[\boldsymbol{\epsilon}\boldsymbol{\epsilon}^T | \mathbf{X}] = \sigma^2 \mathbf{I}_n$,代入得: $$ = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T (\sigma^2 \mathbf{I}_n) \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1} $$ $$ = \sigma^2 (\mathbf{X}^T\mathbf{X})^{-1}(\mathbf{X}^T\mathbf{X})(\mathbf{X}^T\mathbf{X})^{-1} = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1} $$ 这个矩阵的对角线元素给出了每个回归系数估计量的{{{方差}}},非对角线元素给出了不同系数估计量之间的{{{协方差}}}。这一结果是进行{{{假设检验}}}(如t检验和F检验)的基础。这些性质构成了{{{高斯-马尔可夫定理}}}的核心,该定理证明了OLS是{{{最佳线性无偏估计量}}} ({{{BLUE}}})。

总而言之,线性回归的矩阵表示法不仅提供了一种简洁的记法,更是进行理论分析和实证计算的强大工具,是通向更高级计量模型(如{{{广义最小二乘法}}}、工具变量法等)的必经之路。