ARTICLE

线性回归模型的矩阵表示

线性回归模型的矩阵表示 (Matrix Representation of Linear Regression Model) 线性回归模型的矩阵表示是将一个线性回归模型(或一组联立的线性方程)用矩阵和向量的代数形式来表达的方法。这种表示方式是现代统计学、计量经济学和机器学习的基石,因为它极大地简化了模型的表达、理论推导和计算机运算。通过矩阵表示,复杂的求和运

浏览 59 更新 2025-10-23

线性回归模型的矩阵表示 (Matrix Representation of Linear Regression Model)

线性回归模型的矩阵表示是将一个线性回归模型(或一组联立的线性方程)用矩阵向量的代数形式来表达的方法。这种表示方式是现代统计学计量经济学机器学习的基石,因为它极大地简化了模型的表达、理论推导和计算机运算。通过矩阵表示,复杂的求和运算可以被转换为简洁的矩阵乘法,使得从简单的双变量回归推广到多元线性回归变得直观和高效。

从标量形式到矩阵形式

为了理解矩阵表示的构建过程,我们首先从一个包含 kk 个解释变量和 nn 个观测样本的多元线性回归模型的标量形式开始。

对于第 ii 个观测样本(i=1,2,,ni = 1, 2, \dots, n),其模型可以写为:

yi=β0+β1xi1+β2xi2++βkxik+ϵiy_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_k x_{ik} + \epsilon_i

其中:

  • yiy_i 是第 ii 个观测的因变量 (dependent variable)。
  • xi1,xi2,,xikx_{i1}, x_{i2}, \dots, x_{ik} 是与第 ii 个观测对应的 kk自变量 (independent variables)。
  • β0\beta_0 是模型的截距项 (intercept)。
  • β1,β2,,βk\beta_1, \beta_2, \dots, \beta_k 是各个自变量的参数 (parameters) 或回归系数 (regression coefficients)。
  • ϵi\epsilon_i 是与第 ii 个观测相关的随机误差项 (random error term)。

如果我们将所有 nn 个观测的方程全部写出来,会得到一个庞大的方程组。为了简化它,我们引入以下矩阵和向量的定义:

  1. 因变量向量 y\mathbf{y}(大小为 n×1n \times 1): \[ \mathbf{y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix} \]
  2. 设计矩阵 X\mathbf{X} (Design Matrix,大小为 n×(k+1)n \times (k+1)): \[ \mathbf{X} = \begin{pmatrix} \] 1 \& x11x_{11} \& x12x_{12} \& \cdots \& x1kx_{1k} \\ 1 \& x21x_{21} \& x22x_{22} \& \cdots \& x2kx_{2k} \\ \vdots \& \vdots \& \vdots \& \ddots \& \vdots \\ 1 \& xn1x_{n1} \& xn2x_{n2} \& \cdots \& xnkx_{nk} \[ \end{pmatrix} \] 注意:矩阵 X\mathbf{X} 的第一列全部为1。这是为了对应截距项 β0\beta_0
  3. 参数向量 β\boldsymbol{\beta}(大小为 (k+1)×1(k+1) \times 1): \[ \boldsymbol{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} \]
  4. 误差向量 ϵ\boldsymbol{\epsilon}(大小为 n×1n \times 1): \[ \boldsymbol{\epsilon} = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix} \]

通过以上定义,整个方程组可以被紧凑地表示为一个单一的矩阵方程:

y\mathbf{y} = X\mathbf{X}β\boldsymbol{\beta} + ϵ\boldsymbol{\epsilon}

这个方程优雅地概括了模型的核心结构。其中,Xβ\mathbf{X}\boldsymbol{\beta} 代表了模型的系统性部分(由自变量解释的部分),而 ϵ\boldsymbol{\epsilon} 代表了模型的随机部分。

普通最小二乘法 (OLS) 估计量的推导

矩阵表示法的最大优势之一在于它能够简洁地推导出普通最小二乘法 (Ordinary Least Squares, OLS) 的估计量。OLS的目标是找到一个参数估计向量 β^\hat{\boldsymbol{\beta}},使得残差平方和 (Sum of Squared Residuals, SSR) 最小化。

  1. 定义残差向量残差是观测值 yiy_i拟合值 (fitted value) y^i\hat{y}_i 之间的差异。拟合值向量为 y^=Xβ^\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}}。因此,残差向量 e\mathbf{e} 为: \[ \mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}} \]
  2. 表达残差平方和SSR=i=1nei2=eTeSSR = \sum_{i=1}^n e_i^2 = \mathbf{e}^T\mathbf{e}。 \[ SSR(\hat{\boldsymbol{\beta}}) = \mathbf{e}^T\mathbf{e} = (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}})^T (\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) \] 展开得: \[ SSR(\hat{\boldsymbol{\beta}}) = \mathbf{y}^T\mathbf{y} - 2\hat{\boldsymbol{\beta}}^T\mathbf{X}^T\mathbf{y} + \hat{\boldsymbol{\beta}}^T\mathbf{X}^T\mathbf{X}\hat{\boldsymbol{\beta}} \]
  3. 最小化求解(一阶条件):对 SSR(β^)SSR(\hat{\boldsymbol{\beta}}) 关于 β^\hat{\boldsymbol{\beta}} 求导并令其为零: \[ \frac{\partial SSR}{\partial \hat{\boldsymbol{\beta}}} = -2\mathbf{X}^T\mathbf{y} + 2(\mathbf{X}^T\mathbf{X})\hat{\boldsymbol{\beta}} = \mathbf{0} \] 整理后得到著名的 正规方程 (Normal Equations): \[ (\mathbf{X}^T\mathbf{X})\hat{\boldsymbol{\beta}} = \mathbf{X}^T\mathbf{y} \]
  4. OLS估计量公式:前提是 X\mathbf{X} 列满秩(不存在完全的多重共线性): \[ \hat{\boldsymbol{\beta}}_{OLS} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} \]

经典线性回归模型 (CLRM) 假定的矩阵形式

经典线性回归模型 (CLRM) 的核心假定也可以用矩阵语言来简洁地表述。

  • 假定1:线性关系——模型是 y=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon},参数 β\boldsymbol{\beta} 是线性的。
  • 假定2:X\mathbf{X} 的满秩性——矩阵 X\mathbf{X} 的秩为 k+1k+1(假设 n>k+1n > k+1)。这保证了 (XTX)(\mathbf{X}^T\mathbf{X}) 是可逆的。
  • 假定3:严格外生性——E[ϵX]=0E[\boldsymbol{\epsilon} | \mathbf{X}] = \mathbf{0},误差项与所有解释变量在所有观测中都不相关。
  • 假定4:球形误差 (Spherical Errors)——这一假定包含了同方差性 (Homoscedasticity) 和无自相关 (No Autocorrelation): \[ Var(\boldsymbol{\epsilon} | \mathbf{X}) = E[\boldsymbol{\epsilon}\boldsymbol{\epsilon}^T | \mathbf{X}] = \sigma^2 \mathbf{I}_n \] 其中 In\mathbf{I}_nn×nn \times n单位矩阵。对角线元素均为 σ2\sigma^2 体现了同方差性,而非对角线元素均为0体现了无自相关。

OLS估计量的统计性质

利用矩阵形式,我们可以方便地推导OLS估计量的重要统计性质。

  • 无偏性 (Unbiasedness):在假定1-3下,OLS估计量是无偏的,即 E[β^]=βE[\hat{\boldsymbol{\beta}}] = \boldsymbol{\beta}。 \[ \hat{\boldsymbol{\beta}} = \boldsymbol{\beta} + (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\boldsymbol{\epsilon} \] 取期望:E[β^X]=β+(XTX)1XTE[ϵX]=βE[\hat{\boldsymbol{\beta}} | \mathbf{X}] = \boldsymbol{\beta} + (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T E[\boldsymbol{\epsilon} | \mathbf{X}] = \boldsymbol{\beta}
  • β^\hat{\boldsymbol{\beta}} 的方差-协方差矩阵:在假定1-4下: \[ Var(\hat{\boldsymbol{\beta}} | \mathbf{X}) = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1} \] 这个矩阵的对角线元素给出了每个回归系数估计量的方差,非对角线元素给出了不同系数估计量之间的协方差。这一结果是进行假设检验(如t检验和F检验)的基础。

这些性质构成了高斯-马尔可夫定理的核心,该定理证明了OLS是最佳线性无偏估计量 (BLUE)。

总而言之,线性回归的矩阵表示法不仅提供了一种简洁的记法,更是进行理论分析和实证计算的强大工具,是通向更高级计量模型(如广义最小二乘法、工具变量法等)的必经之路。