拟合值向量 (Fitted Value Vector)
拟合值向量 ,通常记为 y ^ \hat{\mathbf{y}} y ^ ,是线性回归 中普通最小二乘法 (OLS)对因变量观测向量 y \mathbf{y} y 在解释变量列空间上的正交投影。它是模型根据估计参数对每个观测点给出的系统预测所组成的向量,与残差向量 ε ^ \hat{\boldsymbol{\varepsilon}} ε ^ 共同构成 y \mathbf{y} y 的正交分解。拟合值向量是所有回归诊断、拟合优度评价与预测推断的出发点。
定义与表达式
考虑经典线性模型 y = X β + ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} y = X β + ε ,其中 y ∈ R n \mathbf{y} \in \mathbb{R}^n y ∈ R n 为观测向量,X ∈ R n × k \mathbf{X} \in \mathbb{R}^{n \times k} X ∈ R n × k 为列满秩设计矩阵,β ∈ R k \boldsymbol{\beta} \in \mathbb{R}^k β ∈ R k 为未知参数向量。OLS 估计量为 β ^ = ( X T X ) − 1 X T y \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} β ^ = ( X T X ) − 1 X T y ,则拟合值向量定义为:
y ^ = X β ^ = X ( X T X ) − 1 X T y = P X y \hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} = \mathbf{P}_{\mathbf{X}}\mathbf{y} y ^ = X β ^ = X ( X T X ) − 1 X T y = P X y
其中 P X = X ( X T X ) − 1 X T \mathbf{P}_{\mathbf{X}} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T P X = X ( X T X ) − 1 X T 为投影矩阵 (亦称帽子矩阵 )。帽子矩阵左乘观测向量,即为观测向量"戴上帽子",生成拟合值。这一命名的直观含义是:y ↦ y ^ \mathbf{y} \mapsto \hat{\mathbf{y}} y ↦ y ^ 。
将拟合值向量按分量写出:
y ^ i = x i T β ^ = β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ k − 1 x i , k − 1 , i = 1 , … , n \hat{y}_i = \mathbf{x}_i^T\hat{\boldsymbol{\beta}} = \hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \cdots + \hat{\beta}_{k-1} x_{i,k-1}, \quad i = 1, \dots, n y ^ i = x i T β ^ = β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ k − 1 x i , k − 1 , i = 1 , … , n
其中 x i T \mathbf{x}_i^T x i T 为设计矩阵 X \mathbf{X} X 的第 i i i 行。y ^ i \hat{y}_i y ^ i 是第 i i i 个观测点的拟合值(或称预测值),表示模型利用所有样本信息估计参数后,对第 i i i 个样本点的系统性刻画。
几何解释
拟合值向量的几何含义是线性回归中最核心的直觉来源。在 R n \mathbb{R}^n R n 空间中:
y ^ = P X y \hat{\mathbf{y}} = \mathbf{P}_{\mathbf{X}}\mathbf{y} y ^ = P X y 是观测向量 y \mathbf{y} y 在 X \mathbf{X} X 的列空间 col ( X ) \operatorname{col}(\mathbf{X}) col ( X ) 上的正交投影。残差向量 ε ^ = y − y ^ = M X y \hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \hat{\mathbf{y}} = \mathbf{M}_{\mathbf{X}}\mathbf{y} ε ^ = y − y ^ = M X y 是 y \mathbf{y} y 在 col ( X ) \operatorname{col}(\mathbf{X}) col ( X ) 的正交补空间上的投影,其中 M X = I n − P X \mathbf{M}_{\mathbf{X}} = \mathbf{I}_n - \mathbf{P}_{\mathbf{X}} M X = I n − P X 为残差生成矩阵 。y ^ \hat{\mathbf{y}} y ^ 与 ε ^ \hat{\boldsymbol{\varepsilon}} ε ^ 正交:y ^ T ε ^ = 0 \hat{\mathbf{y}}^T\hat{\boldsymbol{\varepsilon}} = 0 y ^ T ε ^ = 0 。这在几何上表现为两向量垂直,在统计上意味着拟合值与残差在样本中不相关。
由此得到观测向量的正交分解:
y = y ^ + ε ^ , ∥ y ∥ 2 = ∥ y ^ ∥ 2 + ∥ ε ^ ∥ 2 \mathbf{y} = \hat{\mathbf{y}} + \hat{\boldsymbol{\varepsilon}}, \quad \|\mathbf{y}\|^2 = \|\hat{\mathbf{y}}\|^2 + \|\hat{\boldsymbol{\varepsilon}}\|^2 y = y ^ + ε ^ , ∥ y ∥ 2 = ∥ y ^ ∥ 2 + ∥ ε ^ ∥ 2
平方和分解是方差分析 (ANOVA) 与决定系数 R 2 R^2 R 2 的几何根基:R 2 = ∥ y ^ − y ˉ 1 ∥ 2 / ∥ y − y ˉ 1 ∥ 2 R^2 = \|\hat{\mathbf{y}} - \bar{y}\mathbf{1}\|^2 / \|\mathbf{y} - \bar{y}\mathbf{1}\|^2 R 2 = ∥ y ^ − y ˉ 1 ∥ 2 /∥ y − y ˉ 1 ∥ 2 (去均值后)。在包含截距项的模型中,若对数据做中心化处理,则 R 2 R^2 R 2 可简洁地写为 ∥ P X y ∥ 2 / ∥ y ∥ 2 \|\mathbf{P}_{\mathbf{X}}\mathbf{y}\|^2 / \|\mathbf{y}\|^2 ∥ P X y ∥ 2 /∥ y ∥ 2 的适当形式。
基本代数性质
在 OLS 框架下,拟合值向量具有以下由一阶条件直接导出的精确代数性质:
拟合值均值等于观测均值 (模型含截距时):若 X \mathbf{X} X 包含常数列 1 \mathbf{1} 1 ,则 1 n ∑ i = 1 n y ^ i = 1 n ∑ i = 1 n y i = y ˉ \frac{1}{n}\sum_{i=1}^n \hat{y}_i = \frac{1}{n}\sum_{i=1}^n y_i = \bar{y} n 1 ∑ i = 1 n y ^ i = n 1 ∑ i = 1 n y i = y ˉ 。这是因为 1 T ε ^ = 0 \mathbf{1}^T\hat{\boldsymbol{\varepsilon}} = 0 1 T ε ^ = 0 (残差之和为零),故 1 T y ^ = 1 T y \mathbf{1}^T\hat{\mathbf{y}} = \mathbf{1}^T\mathbf{y} 1 T y ^ = 1 T y 。拟合值与残差正交 :y ^ T ε ^ = ∑ i = 1 n y ^ i ε ^ i = 0 \hat{\mathbf{y}}^T\hat{\boldsymbol{\varepsilon}} = \sum_{i=1}^n \hat{y}_i\hat{\varepsilon}_i = 0 y ^ T ε ^ = ∑ i = 1 n y ^ i ε ^ i = 0 。由 y ^ = P X y \hat{\mathbf{y}} = \mathbf{P}_{\mathbf{X}}\mathbf{y} y ^ = P X y ,ε ^ = M X y \hat{\boldsymbol{\varepsilon}} = \mathbf{M}_{\mathbf{X}}\mathbf{y} ε ^ = M X y ,且 P X M X = 0 \mathbf{P}_{\mathbf{X}}\mathbf{M}_{\mathbf{X}} = \mathbf{0} P X M X = 0 ,即得。拟合值与所有解释变量正交于残差 :X T ε ^ = 0 \mathbf{X}^T\hat{\boldsymbol{\varepsilon}} = \mathbf{0} X T ε ^ = 0 。这是一阶条件 X T ( y − X β ^ ) = 0 \mathbf{X}^T(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) = \mathbf{0} X T ( y − X β ^ ) = 0 的直接推论,意味着残差中不包含任何可以被解释变量线性解释的信息。拟合值的方差结构 :在经典假设 Var ( ε ) = σ 2 I n \operatorname{Var}(\boldsymbol{\varepsilon}) = \sigma^2\mathbf{I}_n Var ( ε ) = σ 2 I n 下, \[ \operatorname{Var}(\hat{\mathbf{y}}) = \operatorname{Var}(\mathbf{P}_{\mathbf{X}}\mathbf{y}) = \mathbf{P}_{\mathbf{X}}\sigma^2\mathbf{I}_n\mathbf{P}_{\mathbf{X}}^T = \sigma^2\mathbf{P}_{\mathbf{X}} \] 单个拟合值的方差为 Var ( y ^ i ) = σ 2 h i i \operatorname{Var}(\hat{y}_i) = \sigma^2 h_{ii} Var ( y ^ i ) = σ 2 h ii ,其中 h i i h_{ii} h ii 为帽子矩阵的第 i i i 个对角线元素(杠杆值 )。杠杆越大,拟合值的方差越大——高杠杆观测点的拟合值对自身的微小扰动更加敏感。拟合值向量的自由度 :y ^ \hat{\mathbf{y}} y ^ 位于 k k k 维子空间 col ( X ) \operatorname{col}(\mathbf{X}) col ( X ) 中,其自由度为 k k k (参数个数)。当模型中包含截距项时,去均值后的拟合值向量的自由度为 k − 1 k-1 k − 1 。∑ i = 1 n h i i = tr ( P X ) = k \sum_{i=1}^n h_{ii} = \operatorname{tr}(\mathbf{P}_{\mathbf{X}}) = k ∑ i = 1 n h ii = tr ( P X ) = k 反映了总杠杆的"预算约束"。
与残差向量的关系
拟合值向量 y ^ \hat{\mathbf{y}} y ^ 与残差向量 ε ^ \hat{\boldsymbol{\varepsilon}} ε ^ 是对偶概念,二者共同完成对观测 y \mathbf{y} y 的分解:
y \mathbf{y} y = \hat {y \mathbf{y} y } + \hat {ε \boldsymbol{\varepsilon} ε }
这一分解具有以下特征:
正交性 :y ^ ⊥ ε ^ \hat{\mathbf{y}} \perp \hat{\boldsymbol{\varepsilon}} y ^ ⊥ ε ^ ,即 y ^ T ε ^ = 0 \hat{\mathbf{y}}^T\hat{\boldsymbol{\varepsilon}} = 0 y ^ T ε ^ = 0 。唯一性 :给定 X \mathbf{X} X 和 OLS 准则,该分解是唯一的。互补性 :y ^ \hat{\mathbf{y}} y ^ 捕获了 y \mathbf{y} y 中可由 X \mathbf{X} X 线性解释的全部变异,ε ^ \hat{\boldsymbol{\varepsilon}} ε ^ 则捕获了无法解释的剩余变异。若模型设定正确(即 E [ y ] ∈ col ( X ) \mathbb{E}[\mathbf{y}] \in \operatorname{col}(\mathbf{X}) E [ y ] ∈ col ( X ) ),则 y ^ \hat{\mathbf{y}} y ^ 是 E [ y ] \mathbb{E}[\mathbf{y}] E [ y ] 的无偏估计。
从预测角度看,y ^ i \hat{y}_i y ^ i 是对第 i i i 个观测点的"样本内预测"。虽然它与 y i y_i y i 使用了同一个数据点进行估计,但 y ^ i \hat{y}_i y ^ i 代表的是模型认为第 i i i 个点在剔除噪声后"应该"取的值。正因如此,过度依赖样本内拟合值判断模型优劣可能导致过拟合 ——模型可能完美拟合样本内的噪声而非信号。
去均值拟合值与 R 2 R^2 R 2
当模型包含截距项时,有必要区分原始拟合值 y ^ \hat{\mathbf{y}} y ^ 与去均值拟合值 y ^ − y ˉ 1 \hat{\mathbf{y}} - \bar{y}\mathbf{1} y ^ − y ˉ 1 。平方和分解为:
∥ y − y ˉ 1 ∥ 2 = ∥ y ^ − y ˉ 1 ∥ 2 + ∥ ε ^ ∥ 2 \|\mathbf{y} - \bar{y}\mathbf{1}\|^2 = \|\hat{\mathbf{y}} - \bar{y}\mathbf{1}\|^2 + \|\hat{\boldsymbol{\varepsilon}}\|^2 ∥ y − y ˉ 1 ∥ 2 = ∥ y ^ − y ˉ 1 ∥ 2 + ∥ ε ^ ∥ 2
即 SST = SSE + SSR \text{SST} = \text{SSE} + \text{SSR} SST = SSE + SSR (总平方和 = 解释平方和 + 残差平方和)。决定系数定义为:
R 2 = SSE SST = ∥ y ^ − y ˉ 1 ∥ 2 ∥ y − y ˉ 1 ∥ 2 = 1 − SSR SST R^2 = \frac{\text{SSE}}{\text{SST}} = \frac{\|\hat{\mathbf{y}} - \bar{y}\mathbf{1}\|^2}{\|\mathbf{y} - \bar{y}\mathbf{1}\|^2} = 1 - \frac{\text{SSR}}{\text{SST}} R 2 = SST SSE = ∥ y − y ˉ 1 ∥ 2 ∥ y ^ − y ˉ 1 ∥ 2 = 1 − SST SSR
R 2 R^2 R 2 度量了拟合值向量(相对于均值)在总变异中所占的比例,即模型的解释力度。当 y ^ = y \hat{\mathbf{y}} = \mathbf{y} y ^ = y 时,R 2 = 1 R^2 = 1 R 2 = 1 (完美拟合);当 y ^ = y ˉ 1 \hat{\mathbf{y}} = \bar{y}\mathbf{1} y ^ = y ˉ 1 (拟合值恒等于样本均值,即除截距外所有斜率为零)时,R 2 = 0 R^2 = 0 R 2 = 0 。
需要注意的是,R 2 R^2 R 2 关于模型嵌套关系单调非减——增加解释变量永远不可能降低 R 2 R^2 R 2 ,因为添加变量意味着 col ( X ) \operatorname{col}(\mathbf{X}) col ( X ) 扩张,投影距离不可能变远。这正是调整R 2 R^2 R 2 以及AIC 、BIC 等信息准则存在的理由:对过大的模型施加惩罚。
在分块回归中的表现:Frisch-Waugh-Lovell视角
将设计矩阵分块为 X = [ X 1 X 2 ] \mathbf{X} = [\mathbf{X}_1 \;\; \mathbf{X}_2] X = [ X 1 X 2 ] ,Frisch-Waugh-Lovell定理 (FWL) 为理解拟合值向量提供了另一个角度。关注 X 1 \mathbf{X}_1 X 1 的偏效应时,拟合值向量可按以下方式构造:
计算 y \mathbf{y} y 对 X 2 \mathbf{X}_2 X 2 回归的残差:y ∗ = M X 2 y \mathbf{y}^* = \mathbf{M}_{\mathbf{X}_2}\mathbf{y} y ∗ = M X 2 y 计算 X 1 \mathbf{X}_1 X 1 每列对 X 2 \mathbf{X}_2 X 2 回归的残差:X 1 ∗ = M X 2 X 1 \mathbf{X}_1^* = \mathbf{M}_{\mathbf{X}_2}\mathbf{X}_1 X 1 ∗ = M X 2 X 1 将 y ∗ \mathbf{y}^* y ∗ 对 X 1 ∗ \mathbf{X}_1^* X 1 ∗ 回归,得到 β ^ 1 \hat{\boldsymbol{\beta}}_1 β ^ 1
在此框架下,最终拟合值向量可写为:
y ^ = X 1 β ^ 1 + X 2 β ^ 2 = P X y \hat{\mathbf{y}} = \mathbf{X}_1\hat{\boldsymbol{\beta}}_1 + \mathbf{X}_2\hat{\boldsymbol{\beta}}_2 = \mathbf{P}_{\mathbf{X}}\mathbf{y} y ^ = X 1 β ^ 1 + X 2 β ^ 2 = P X y
而 X 1 β ^ 1 \mathbf{X}_1\hat{\boldsymbol{\beta}}_1 X 1 β ^ 1 的贡献可以通过 P X 1 ∗ y ∗ \mathbf{P}_{\mathbf{X}_1^*}\mathbf{y}^* P X 1 ∗ y ∗ 来理解——即先将 X 2 \mathbf{X}_2 X 2 的效应从 y \mathbf{y} y 和 X 1 \mathbf{X}_1 X 1 中"净化"(partial out),再建立拟合关系。FWL 定理揭示了多元回归中"控制其他变量后"这一表述的精确数学含义:拟合值中属于 X 1 \mathbf{X}_1 X 1 的部分,仅利用了 X 1 \mathbf{X}_1 X 1 中与 X 2 \mathbf{X}_2 X 2 不相关的信息。
预测中的拟合值:样本内与样本外
拟合值向量本质上是样本内预测。对于样本外的新观测 x 0 \mathbf{x}_0 x 0 ,其点预测为:
y ^ 0 = x 0 T β ^ \hat{y}_0 = \mathbf{x}_0^T\hat{\boldsymbol{\beta}} y ^ 0 = x 0 T β ^
预测误差为 y 0 − y ^ 0 = ε 0 + x 0 T ( β − β ^ ) y_0 - \hat{y}_0 = \varepsilon_0 + \mathbf{x}_0^T(\boldsymbol{\beta} - \hat{\boldsymbol{\beta}}) y 0 − y ^ 0 = ε 0 + x 0 T ( β − β ^ ) ,即真实噪声与参数估计误差之和。预测方差为:
Var ( y ^ 0 − y 0 ) = σ 2 ( 1 + x 0 T ( X T X ) − 1 x 0 ) \operatorname{Var}(\hat{y}_0 - y_0) = \sigma^2(1 + \mathbf{x}_0^T(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{x}_0) Var ( y ^ 0 − y 0 ) = σ 2 ( 1 + x 0 T ( X T X ) − 1 x 0 )
相比拟合值的方差 Var ( y ^ i ) = σ 2 h i i \operatorname{Var}(\hat{y}_i) = \sigma^2 h_{ii} Var ( y ^ i ) = σ 2 h ii ,预测方差多出一个 σ 2 \sigma^2 σ 2 项——这是不可消除的随机噪声的贡献。样本内拟合的精度总是高于样本外预测,这一差距在自变量取值远离训练数据均值时尤为显著。
与相关概念的比较
投影矩阵 (帽子矩阵) :拟合值向量是帽子矩阵作用于观测向量的结果。帽子矩阵是算子,拟合值向量是该算子的像。残差向量 :ε ^ = y − y ^ \hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \hat{\mathbf{y}} ε ^ = y − y ^ ,二者互补且正交,共同构成对 y \mathbf{y} y 的完备分解。BLUE :OLS 估计量 β ^ \hat{\boldsymbol{\beta}} β ^ 是最优线性无偏估计量,但 y ^ = X β ^ \hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} y ^ = X β ^ 本身并非 E [ y ] \mathbb{E}[\mathbf{y}] E [ y ] 的唯一无偏估计——在模型正确设定的前提下,它是 E [ y ] \mathbb{E}[\mathbf{y}] E [ y ] 在 col ( X ) \operatorname{col}(\mathbf{X}) col ( X ) 上的最佳线性无偏预测。杠杆值 :h i i = ∂ y ^ i / ∂ y i h_{ii} = \partial \hat{y}_i / \partial y_i h ii = ∂ y ^ i / ∂ y i ,即拟合值对自身观测值的偏导数。高杠杆意味着该观测点可以强力"拉动"自身的拟合值。
总结
拟合值向量是线性回归的枢纽性概念。它将参数估计、投影几何与拟合优度评价贯通为一个有机整体:从代数上看,它是帽子矩阵与观测向量的乘积;从几何上看,它是观测向量在解释变量列空间上的正交投影;从统计上看,它是剔除噪声后的系统性信号估计。掌握拟合值向量与残差向量的正交分解关系、拟合值的方差结构(由杠杆值决定)以及在 FWL 定理下的净化含义,是深入理解一切线性模型诊断、推断与预测的理论基础。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。