ARTICLE

拟合值向量

拟合值向量 (Fitted Value Vector) 拟合值向量,通常记为 y,是线性回归中普通最小二乘法(OLS)对因变量观测向量 y 在解释变量列空间上的正交投影。它是模型根据估计参数对每个观测点给出的系统预测所组成的向量,与残差向量 共同构成 y 的正交分解。拟合值向量是所有回归诊断、拟合优度评价与预测推断的出发点。 定义与表达式 考虑经典线性模型

浏览 0 更新 2025-10-26

拟合值向量 (Fitted Value Vector)

拟合值向量,通常记为 y^\hat{\mathbf{y}},是线性回归普通最小二乘法(OLS)对因变量观测向量 y\mathbf{y} 在解释变量列空间上的正交投影。它是模型根据估计参数对每个观测点给出的系统预测所组成的向量,与残差向量 ε^\hat{\boldsymbol{\varepsilon}} 共同构成 y\mathbf{y} 的正交分解。拟合值向量是所有回归诊断、拟合优度评价与预测推断的出发点。

定义与表达式

考虑经典线性模型 y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon},其中 yRn\mathbf{y} \in \mathbb{R}^n 为观测向量,XRn×k\mathbf{X} \in \mathbb{R}^{n \times k} 为列满秩设计矩阵,βRk\boldsymbol{\beta} \in \mathbb{R}^k 为未知参数向量。OLS 估计量为 β^=(XTX)1XTy\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y},则拟合值向量定义为:

y^=Xβ^=X(XTX)1XTy=PXy\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} = \mathbf{P}_{\mathbf{X}}\mathbf{y}

其中 PX=X(XTX)1XT\mathbf{P}_{\mathbf{X}} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T投影矩阵(亦称帽子矩阵)。帽子矩阵左乘观测向量,即为观测向量"戴上帽子",生成拟合值。这一命名的直观含义是:yy^\mathbf{y} \mapsto \hat{\mathbf{y}}

将拟合值向量按分量写出:

y^i=xiTβ^=β^0+β^1xi1++β^k1xi,k1,i=1,,n\hat{y}_i = \mathbf{x}_i^T\hat{\boldsymbol{\beta}} = \hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \cdots + \hat{\beta}_{k-1} x_{i,k-1}, \quad i = 1, \dots, n

其中 xiT\mathbf{x}_i^T 为设计矩阵 X\mathbf{X} 的第 ii 行。y^i\hat{y}_i 是第 ii 个观测点的拟合值(或称预测值),表示模型利用所有样本信息估计参数后,对第 ii 个样本点的系统性刻画。

几何解释

拟合值向量的几何含义是线性回归中最核心的直觉来源。在 Rn\mathbb{R}^n 空间中:

  • y^=PXy\hat{\mathbf{y}} = \mathbf{P}_{\mathbf{X}}\mathbf{y} 是观测向量 y\mathbf{y}X\mathbf{X} 的列空间 col(X)\operatorname{col}(\mathbf{X}) 上的正交投影。
  • 残差向量 ε^=yy^=MXy\hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \hat{\mathbf{y}} = \mathbf{M}_{\mathbf{X}}\mathbf{y}y\mathbf{y}col(X)\operatorname{col}(\mathbf{X}) 的正交补空间上的投影,其中 MX=InPX\mathbf{M}_{\mathbf{X}} = \mathbf{I}_n - \mathbf{P}_{\mathbf{X}}残差生成矩阵
  • y^\hat{\mathbf{y}}ε^\hat{\boldsymbol{\varepsilon}} 正交:y^Tε^=0\hat{\mathbf{y}}^T\hat{\boldsymbol{\varepsilon}} = 0。这在几何上表现为两向量垂直,在统计上意味着拟合值与残差在样本中不相关。

由此得到观测向量的正交分解:

y=y^+ε^,y2=y^2+ε^2\mathbf{y} = \hat{\mathbf{y}} + \hat{\boldsymbol{\varepsilon}}, \quad \|\mathbf{y}\|^2 = \|\hat{\mathbf{y}}\|^2 + \|\hat{\boldsymbol{\varepsilon}}\|^2

平方和分解是方差分析 (ANOVA) 与决定系数 R2R^2 的几何根基:R2=y^yˉ12/yyˉ12R^2 = \|\hat{\mathbf{y}} - \bar{y}\mathbf{1}\|^2 / \|\mathbf{y} - \bar{y}\mathbf{1}\|^2(去均值后)。在包含截距项的模型中,若对数据做中心化处理,则 R2R^2 可简洁地写为 PXy2/y2\|\mathbf{P}_{\mathbf{X}}\mathbf{y}\|^2 / \|\mathbf{y}\|^2 的适当形式。

基本代数性质

在 OLS 框架下,拟合值向量具有以下由一阶条件直接导出的精确代数性质:

  1. 拟合值均值等于观测均值(模型含截距时):若 X\mathbf{X} 包含常数列 1\mathbf{1},则 1ni=1ny^i=1ni=1nyi=yˉ\frac{1}{n}\sum_{i=1}^n \hat{y}_i = \frac{1}{n}\sum_{i=1}^n y_i = \bar{y}。这是因为 1Tε^=0\mathbf{1}^T\hat{\boldsymbol{\varepsilon}} = 0(残差之和为零),故 1Ty^=1Ty\mathbf{1}^T\hat{\mathbf{y}} = \mathbf{1}^T\mathbf{y}
  2. 拟合值与残差正交y^Tε^=i=1ny^iε^i=0\hat{\mathbf{y}}^T\hat{\boldsymbol{\varepsilon}} = \sum_{i=1}^n \hat{y}_i\hat{\varepsilon}_i = 0。由 y^=PXy\hat{\mathbf{y}} = \mathbf{P}_{\mathbf{X}}\mathbf{y}ε^=MXy\hat{\boldsymbol{\varepsilon}} = \mathbf{M}_{\mathbf{X}}\mathbf{y},且 PXMX=0\mathbf{P}_{\mathbf{X}}\mathbf{M}_{\mathbf{X}} = \mathbf{0},即得。
  3. 拟合值与所有解释变量正交于残差XTε^=0\mathbf{X}^T\hat{\boldsymbol{\varepsilon}} = \mathbf{0}。这是一阶条件 XT(yXβ^)=0\mathbf{X}^T(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) = \mathbf{0} 的直接推论,意味着残差中不包含任何可以被解释变量线性解释的信息。
  4. 拟合值的方差结构:在经典假设 Var(ε)=σ2In\operatorname{Var}(\boldsymbol{\varepsilon}) = \sigma^2\mathbf{I}_n 下, \[ \operatorname{Var}(\hat{\mathbf{y}}) = \operatorname{Var}(\mathbf{P}_{\mathbf{X}}\mathbf{y}) = \mathbf{P}_{\mathbf{X}}\sigma^2\mathbf{I}_n\mathbf{P}_{\mathbf{X}}^T = \sigma^2\mathbf{P}_{\mathbf{X}} \] 单个拟合值的方差为 Var(y^i)=σ2hii\operatorname{Var}(\hat{y}_i) = \sigma^2 h_{ii},其中 hiih_{ii} 为帽子矩阵的第 ii 个对角线元素(杠杆值)。杠杆越大,拟合值的方差越大——高杠杆观测点的拟合值对自身的微小扰动更加敏感。
  5. 拟合值向量的自由度y^\hat{\mathbf{y}} 位于 kk 维子空间 col(X)\operatorname{col}(\mathbf{X}) 中,其自由度为 kk(参数个数)。当模型中包含截距项时,去均值后的拟合值向量的自由度为 k1k-1i=1nhii=tr(PX)=k\sum_{i=1}^n h_{ii} = \operatorname{tr}(\mathbf{P}_{\mathbf{X}}) = k 反映了总杠杆的"预算约束"。

与残差向量的关系

拟合值向量 y^\hat{\mathbf{y}} 与残差向量 ε^\hat{\boldsymbol{\varepsilon}} 是对偶概念,二者共同完成对观测 y\mathbf{y} 的分解:

y\mathbf{y} = \hat{y\mathbf{y}} + \hat{ε\boldsymbol{\varepsilon}}

这一分解具有以下特征:

  • 正交性y^ε^\hat{\mathbf{y}} \perp \hat{\boldsymbol{\varepsilon}},即 y^Tε^=0\hat{\mathbf{y}}^T\hat{\boldsymbol{\varepsilon}} = 0
  • 唯一性:给定 X\mathbf{X} 和 OLS 准则,该分解是唯一的。
  • 互补性y^\hat{\mathbf{y}} 捕获了 y\mathbf{y} 中可由 X\mathbf{X} 线性解释的全部变异,ε^\hat{\boldsymbol{\varepsilon}} 则捕获了无法解释的剩余变异。若模型设定正确(即 E[y]col(X)\mathbb{E}[\mathbf{y}] \in \operatorname{col}(\mathbf{X})),则 y^\hat{\mathbf{y}}E[y]\mathbb{E}[\mathbf{y}] 的无偏估计。

从预测角度看,y^i\hat{y}_i 是对第 ii 个观测点的"样本内预测"。虽然它与 yiy_i 使用了同一个数据点进行估计,但 y^i\hat{y}_i 代表的是模型认为第 ii 个点在剔除噪声后"应该"取的值。正因如此,过度依赖样本内拟合值判断模型优劣可能导致过拟合——模型可能完美拟合样本内的噪声而非信号。

去均值拟合值与 R2R^2

当模型包含截距项时,有必要区分原始拟合值 y^\hat{\mathbf{y}} 与去均值拟合值 y^yˉ1\hat{\mathbf{y}} - \bar{y}\mathbf{1}。平方和分解为:

yyˉ12=y^yˉ12+ε^2\|\mathbf{y} - \bar{y}\mathbf{1}\|^2 = \|\hat{\mathbf{y}} - \bar{y}\mathbf{1}\|^2 + \|\hat{\boldsymbol{\varepsilon}}\|^2

SST=SSE+SSR\text{SST} = \text{SSE} + \text{SSR}(总平方和 = 解释平方和 + 残差平方和)。决定系数定义为:

R2=SSESST=y^yˉ12yyˉ12=1SSRSSTR^2 = \frac{\text{SSE}}{\text{SST}} = \frac{\|\hat{\mathbf{y}} - \bar{y}\mathbf{1}\|^2}{\|\mathbf{y} - \bar{y}\mathbf{1}\|^2} = 1 - \frac{\text{SSR}}{\text{SST}}

R2R^2 度量了拟合值向量(相对于均值)在总变异中所占的比例,即模型的解释力度。当 y^=y\hat{\mathbf{y}} = \mathbf{y} 时,R2=1R^2 = 1(完美拟合);当 y^=yˉ1\hat{\mathbf{y}} = \bar{y}\mathbf{1}(拟合值恒等于样本均值,即除截距外所有斜率为零)时,R2=0R^2 = 0

需要注意的是,R2R^2 关于模型嵌套关系单调非减——增加解释变量永远不可能降低 R2R^2,因为添加变量意味着 col(X)\operatorname{col}(\mathbf{X}) 扩张,投影距离不可能变远。这正是调整R2R^2以及AICBIC等信息准则存在的理由:对过大的模型施加惩罚。

在分块回归中的表现:Frisch-Waugh-Lovell视角

将设计矩阵分块为 X=[X1    X2]\mathbf{X} = [\mathbf{X}_1 \;\; \mathbf{X}_2]Frisch-Waugh-Lovell定理 (FWL) 为理解拟合值向量提供了另一个角度。关注 X1\mathbf{X}_1 的偏效应时,拟合值向量可按以下方式构造:

  1. 计算 y\mathbf{y}X2\mathbf{X}_2 回归的残差:y=MX2y\mathbf{y}^* = \mathbf{M}_{\mathbf{X}_2}\mathbf{y}
  2. 计算 X1\mathbf{X}_1 每列对 X2\mathbf{X}_2 回归的残差:X1=MX2X1\mathbf{X}_1^* = \mathbf{M}_{\mathbf{X}_2}\mathbf{X}_1
  3. y\mathbf{y}^*X1\mathbf{X}_1^* 回归,得到 β^1\hat{\boldsymbol{\beta}}_1

在此框架下,最终拟合值向量可写为:

y^=X1β^1+X2β^2=PXy\hat{\mathbf{y}} = \mathbf{X}_1\hat{\boldsymbol{\beta}}_1 + \mathbf{X}_2\hat{\boldsymbol{\beta}}_2 = \mathbf{P}_{\mathbf{X}}\mathbf{y}

X1β^1\mathbf{X}_1\hat{\boldsymbol{\beta}}_1 的贡献可以通过 PX1y\mathbf{P}_{\mathbf{X}_1^*}\mathbf{y}^* 来理解——即先将 X2\mathbf{X}_2 的效应从 y\mathbf{y}X1\mathbf{X}_1 中"净化"(partial out),再建立拟合关系。FWL 定理揭示了多元回归中"控制其他变量后"这一表述的精确数学含义:拟合值中属于 X1\mathbf{X}_1 的部分,仅利用了 X1\mathbf{X}_1 中与 X2\mathbf{X}_2 不相关的信息。

预测中的拟合值:样本内与样本外

拟合值向量本质上是样本内预测。对于样本外的新观测 x0\mathbf{x}_0,其点预测为:

y^0=x0Tβ^\hat{y}_0 = \mathbf{x}_0^T\hat{\boldsymbol{\beta}}

预测误差为 y0y^0=ε0+x0T(ββ^)y_0 - \hat{y}_0 = \varepsilon_0 + \mathbf{x}_0^T(\boldsymbol{\beta} - \hat{\boldsymbol{\beta}}),即真实噪声与参数估计误差之和。预测方差为:

Var(y^0y0)=σ2(1+x0T(XTX)1x0)\operatorname{Var}(\hat{y}_0 - y_0) = \sigma^2(1 + \mathbf{x}_0^T(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{x}_0)

相比拟合值的方差 Var(y^i)=σ2hii\operatorname{Var}(\hat{y}_i) = \sigma^2 h_{ii},预测方差多出一个 σ2\sigma^2 项——这是不可消除的随机噪声的贡献。样本内拟合的精度总是高于样本外预测,这一差距在自变量取值远离训练数据均值时尤为显著。

与相关概念的比较

  • 投影矩阵(帽子矩阵):拟合值向量是帽子矩阵作用于观测向量的结果。帽子矩阵是算子,拟合值向量是该算子的像。
  • 残差向量ε^=yy^\hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \hat{\mathbf{y}},二者互补且正交,共同构成对 y\mathbf{y} 的完备分解。
  • BLUE:OLS 估计量 β^\hat{\boldsymbol{\beta}} 是最优线性无偏估计量,但 y^=Xβ^\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} 本身并非 E[y]\mathbb{E}[\mathbf{y}] 的唯一无偏估计——在模型正确设定的前提下,它是 E[y]\mathbb{E}[\mathbf{y}]col(X)\operatorname{col}(\mathbf{X}) 上的最佳线性无偏预测。
  • 杠杆值hii=y^i/yih_{ii} = \partial \hat{y}_i / \partial y_i,即拟合值对自身观测值的偏导数。高杠杆意味着该观测点可以强力"拉动"自身的拟合值。

总结

拟合值向量是线性回归的枢纽性概念。它将参数估计、投影几何与拟合优度评价贯通为一个有机整体:从代数上看,它是帽子矩阵与观测向量的乘积;从几何上看,它是观测向量在解释变量列空间上的正交投影;从统计上看,它是剔除噪声后的系统性信号估计。掌握拟合值向量与残差向量的正交分解关系、拟合值的方差结构(由杠杆值决定)以及在 FWL 定理下的净化含义,是深入理解一切线性模型诊断、推断与预测的理论基础。