ARTICLE
拟合值
拟合值 (Fitted Value) 拟合值 (Fitted Value),在统计模型中也常被称为预测值 (Predicted Value,特指样本内预测),是指利用已估计出的回归模型,针对数据集中每一个观测点的自变量 (Independent Variables) 所计算出的因变量 (Dependent Variable) 的估计值。拟合值代表了模型对给定
拟合值 (Fitted Value)
拟合值 (Fitted Value),在统计模型中也常被称为预测值 (Predicted Value,特指样本内预测),是指利用已估计出的回归模型,针对数据集中每一个观测点的自变量 (Independent Variables) 所计算出的因变量 (Dependent Variable) 的估计值。拟合值代表了模型对给定自变量下因变量的"最佳猜测"。
在统计学和计量经济学中,拟合值是理解模型性能、进行模型诊断和解释回归结果的核心概念。通常用 (读作 "y-hat") 来表示第 个观测值的拟合值,以区别于其对应的实际观测值 。
定义与计算
拟合值的计算基于已通过某种估计方法(如普通最小二乘法 (OLS))得到的模型参数。
简单线性回归
在简单线性回归模型中,我们假设因变量 和单个自变量 之间的关系是线性的:
其中:
- 是第 个观测的因变量实际值。
- 是第 个观测的自变量实际值。
- 是模型的截距 (Intercept)。
- 是模型的斜率 (Slope)。
- 是误差项 (Error Term),代表了无法被模型解释的随机扰动。
通过OLS等方法,我们可以得到参数的估计值 和 。利用这些估计值,我们就可以为数据集中的每个 计算其对应的拟合值 :
这个公式定义的直线被称为样本回归线 (Sample Regression Line)。每一个拟合值 都精确地落在这条直线上。
多元线性回归
这个概念可以自然地推广到多元线性回归模型,即模型包含多个自变量:
其中 是第 个观测的 个不同自变量的值。
其拟合值的计算公式为:
矩阵表示法
在更高级的课程中,使用矩阵代数表示更为简洁高效。模型可以写作:
其中, 是因变量观测值的列向量, 是包含一列1(对应截距)和所有自变量观测值的矩阵, 是参数列向量, 是误差项的列向量。
OLS估计的参数向量为 。因此,拟合值的向量 可以表示为:
在这里,我们定义一个非常重要的矩阵——帽子矩阵 (Hat Matrix),记为 :
于是,拟合值的向量可以非常简洁地表示为:
这个表达式清晰地表明,拟合值向量 是通过帽子矩阵 这个线性算子"戴在"原始观测值向量 上的结果。
拟合值与残差
拟合值与残差 (Residual) 紧密相关。残差是实际观测值与模型拟合值之间的差异,记为 或 。
几何意义:
- 拟合值 () 是在由自变量构成的空间中,实际观测点 在回归线(或回归超平面)上的垂直投影点的高度。
- 残差 () 是实际观测点 到回归线的垂直距离。
普通最小二乘法(OLS)的目标正是寻找一组参数估计值 ,使得所有观测值的残差平方和 (Sum of Squared Residuals, RSS) 最小化:
因此,拟合值的概念是OLS估计方法的核心。
关键性质 (基于OLS)
在包含截距项的OLS回归模型中,拟合值和残差具有一些重要的统计性质:
- 均值相等:拟合值的样本均值等于实际观测值的样本均值。
这意味着回归模型在整体上是"无偏"的,高估和低估的部分相互抵消。
- 与残差不相关:拟合值与残差在样本中是不相关的。
这意味着由模型解释的部分(拟合值)与模型未解释的部分(残差)在几何意义上是正交的。
- 方差分解:因变量的总变异可以被分解为模型解释的变异和未解释的变异。
- 总平方和(Total Sum of Squares, TSS):,衡量 的总变异。
- 回归平方和(Explained Sum of Squares, ESS):,衡量能被模型解释的 的变异,这部分变异完全由拟合值的变化贡献。
- 残差平方和(Residual Sum of Squares, RSS):,衡量不能被模型解释的 的变异。
这三者满足恒等式:
此恒等式是方差分析 (ANOVA)的基础,并且直接引出了衡量模型拟合优度的重要指标——决定系数 ():
的取值介于0和1之间,数值越大表示模型对数据的拟合程度越好。
拟合值 vs. 预测值
虽然在某些语境下这两个词可以互换,但在严谨的统计学中,区分它们非常重要:
- 拟合值 (Fitted Value):是针对样本内 (in-sample) 数据的预测。即对用于训练模型的原始数据集中的每一个观测值 进行预测,得到 。
- 预测值 (Predicted Value):通常指对样本外 (out-of-sample) 数据的预测。即使用已经训练好的模型,对一个全新的、未包含在训练集中的观测值 进行预测,得到 。
计算公式是相同的,但它们的统计推断(如构造置信区间)则有所不同。对拟合值的推断通常关注均值响应的置信区间 (Confidence Interval for the Mean Response),而对新预测值的推断则关注单个响应的预测区间 (Prediction Interval for an Individual Response)。预测区间总是比置信区间更宽,因为它除了包含模型参数估计的不确定性外,还必须包含未来单个误差项 的不确定性。
应用
拟合值是回归分析中不可或缺的工具:
- 模型诊断:通过绘制残差对拟合值图 (Residuals vs. Fitted Plot),可以直观地检查模型假设是否成立。例如,可以观察是否存在异方差性(残差的方差随拟合值的变化而变化)、非线性关系或潜在的异常值。
- 评估拟合优度:如前所述,拟合值是计算 和调整后R²等拟合优度指标的基础,帮助我们量化模型对数据变异的解释能力。
- 结果解释:拟合值提供了模型对现实世界的具体量化描述,使得分析师能够具体说明在特定条件下因变量的期望值是多少。
扩展:广义线性模型中的拟合值
上述讨论主要针对线性回归模型。在广义线性模型 (GLM) 中,拟合值的概念有了进一步的拓展。对于Logistic回归、泊松回归等非线性模型,拟合值 不再直接是自变量的线性组合,而是通过一个链接函数 (Link Function) 将线性预测 映射到因变量的期望值:
例如,在Logistic回归中,拟合值是给定自变量下事件发生的预测概率 ,取值范围限制在0到1之间。这种扩展使得拟合值成为连接线性预测空间与实际观测尺度之间的关键桥梁,是理解各类广义线性模型预测机制的核心概念。