ARTICLE

均方残差

均方残差 (Mean Squared Residual, MSR) 在线性回归和方差分析中,均方残差(Mean Squared Residual,简称 MSR 或 MSRes,也称均方误差 MSE)是残差平方和除以相应自由度得到的量,作为误差项方差 ^2 的无偏估计。它衡量了模型未能解释的变异在平均每个自由度上的大小,是回归诊断和统计推断中的核心指标。 数学

浏览 0 更新 2026-01-15

均方残差 (Mean Squared Residual, MSR)

线性回归方差分析中,均方残差(Mean Squared Residual,简称 MSR 或 MSRes,也称均方误差 MSE)是残差平方和除以相应自由度得到的量,作为误差项方差 σ2\sigma^2 的无偏估计。它衡量了模型未能解释的变异在平均每个自由度上的大小,是回归诊断和统计推断中的核心指标。

数学定义

给定线性回归模型 Y=Xβ+εY = X\beta + \varepsilon,其中 εN(0,σ2I)\varepsilon \sim N(0, \sigma^2 I),残差向量为 ε^=YXβ^\hat{\varepsilon} = Y - X\hat{\beta}。残差平方和(RSS)为:

RSS=ε^Tε^=i=1n(yiy^i)2\text{RSS} = \hat{\varepsilon}^T \hat{\varepsilon} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

均方残差定义为:

MSR=RSSnp\text{MSR} = \frac{\text{RSS}}{n - p}

其中 nn 为样本量,pp 为待估参数个数(含截距项)。在经典线性回归假设下,E[MSR]=σ2E[\text{MSR}] = \sigma^2,即 MSR 是误差方差的无偏估计。其平方根 MSR\sqrt{\text{MSR}} 称为回归标准误差(Standard Error of Regression, SER),度量了观测值围绕回归线的典型离散程度。

与 ANOVA 表的关系

在回归的方差分析(ANOVA)表中,均方残差与均方回归(MSReg)并列构成 F 检验的基础:

F=MSRegMSR=ESS/(p1)RSS/(np)Fp1,npF = \frac{\text{MSReg}}{\text{MSR}} = \frac{\text{ESS}/(p-1)}{\text{RSS}/(n-p)} \sim F_{p-1, n-p}

其中 ESS 为回归平方和。该 F 统计量检验所有斜率系数同时为零的原假设。MSR 越小(模型拟合越好),F 值越大,越倾向于拒绝原假设。

与均方预测误差的区别

需注意区分均方残差(MSR)与均方误差(MSE)在预测语境中的含义。在回归诊断中,MSR 基于训练集残差计算,度量的是样本内拟合优度。而预测意义上的 MSE(Mean Squared Prediction Error)基于测试集或交叉验证中的预测误差 (y^newynew)2(\hat{y}_{\text{new}} - y_{\text{new}})^2 计算,反映了模型的泛化能力。使用 MSR 评估预测性能可能导致乐观偏误——样本内残差通常小于样本外预测误差,这一现象在模型复杂度过高时尤为严重。

MSR 在模型选择中的角色

调整 R²AICBIC 等信息准则均与 MSR 密切相关。以调整 R² 为例:

Rˉ2=1MSRMST=1RSS/(np)TSS/(n1)\bar{R}^2 = 1 - \frac{\text{MSR}}{\text{MST}} = 1 - \frac{\text{RSS}/(n-p)}{\text{TSS}/(n-1)}

其中 MST 是总均方。该公式表明,新增变量只有在使 MSR 降幅大于自由度惩罚时,调整 R² 才会上升。类似地,AIC 与 Mallow's CpC_p 均可表示为 MSR 和模型复杂度的函数,本质上在拟合优度(低 MSR)和简约性(少参数)之间寻求平衡。

非恒定方差下的稳健性

经典线性回归假设 εi\varepsilon_i 同方差(homoskedasticity),此时 MSR 是 σ2\sigma^2 的有效估计。若存在异方差,MSR 仍为一致估计,但不再有效,且基于 MSR 的标准误差和 t/F 检验会失效。此时应使用异方差稳健标准误差(Huber-White estimator),或转而采用加权最小二乘法(WLS),通过加权残差的 MSR 进行修正。