# 线性回归 (Linear Regression)
线性回归 是一种基本的、广泛应用的{{{统计学}}}和{{{机器学习}}}方法。其目标是建立一个数学模型,用来描述一个或多个自变量(predictor variables)与一个因变量(dependent variable)之间的线性关系。通过拟合数据点,线性回归旨在找到一条“最佳拟合”直线(或超平面),以预测因变量的数值。
线性回归是{{{回归分析}}}中最基础的形式,也是理解更复杂模型(如{{{广义线性模型}}})的基石。它在{{{经济学}}}、{{{金融学}}}、生物学和社会科学等领域都有着广泛的应用,例如预测房价、分析股票回报率、评估营销活动效果等。
## 核心模型:简单线性回归
最简单的线性回归形式是 简单线性回归 (Simple Linear Regression, SLR),它只涉及一个{{{自变量}}}(Independent Variable) $X$ 和一个{{{因变量}}}(Dependent Variable) $Y$。
其总体模型(population model)可以表示为:
$$ Y = \beta_0 + \beta_1 X + \varepsilon $$
我们来逐一解析这个方程的组成部分:
* $Y$:因变量,也称为响应变量 (response variable) 或结果变量 (outcome variable)。这是我们试图预测或解释的变量。 * $X$:自变量,也称为预测变量 (predictor variable) 或特征 (feature)。这是我们用来预测 $Y$ 的变量。 * $\beta_0$:截距 (Intercept)。这是当自变量 $X = 0$ 时,因变量 $Y$ 的期望值。在几何上,它是回归直线与Y轴的交点。 * $\beta_1$:斜率 (Slope) 或 回归系数 (Regression Coefficient)。它表示当自变量 $X$ 每增加一个单位时,因变量 $Y$ 的期望变化量。这个系数的大小和符号描述了 $X$ 对 $Y$ 影响的方向和强度。 * $\varepsilon$:误差项 (Error Term) 或干扰项 (disturbance)。它代表了所有没有被模型包含进来的、影响 $Y$ 的其他因素的总和,也包括测量误差和固有的随机性。它捕捉了数据点与回归直线之间的偏差。
由于我们通常无法观测到真实的总体参数 $\beta_0$ 和 $\beta_1$,我们使用样本数据来对它们进行估计。估计出的模型表示为:
$$ \hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X $$
这里的“帽子”符号(^)表示这是一个估计值。 * $\hat{Y}$ 是给定 $X$ 时 $Y$ 的 预测值 (predicted value)。 * $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 是对总体参数 $\beta_0$ 和 $\beta_1$ 的 估计值 (estimates)。
## 参数估计方法:普通最小二乘法 (OLS)
那么,如何找到“最佳拟合”直线,即如何确定 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的值呢?最常用的方法是 {{{普通最小二乘法}}} (Ordinary Least Squares, OLS)。
OLS的核心思想是:选择这样一组参数 $(\hat{\beta}_0, \hat{\beta}_1)$,使得所有观测值 $y_i$ 与其对应的模型预测值 $\hat{y}_i$ 之间的差的平方和最小。这个差值 $(y_i - \hat{y}_i)$ 被称为 {{{残差}}} (Residual),可以看作是对误差项 $\varepsilon_i$ 的估计。
具体来说,OLS的目标是最小化 {{{残差平方和}}} (Residual Sum of Squares, RSS):
$$ \text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i))^2 $$
其中 $n$ 是样本量。通过{{{微积分}}}中的求导方法,对上述RSS函数分别求关于 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的偏导数,并令其等于零,可以解出使得RSS最小的参数估计值:
$$ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} $$
$$ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$
其中: * $\bar{x}$ 和 $\bar{y}$ 分别是 $X$ 和 $Y$ 的样本均值。 * $\text{Cov}(X, Y)$ 是 $X$ 和 $Y$ 的样本{{{协方差}}}。 * $\text{Var}(X)$ 是 $X$ 的样本{{{方差}}}。
这个结果有一个直观的几何解释:OLS回归线一定会穿过点 $(\bar{x}, \bar{y})$。
## 模型评估与检验
建立模型后,我们需要评估它的拟合优度和统计显著性。
### 1. 拟合优度:判定系数 ($R^2$)
{{{判定系数}}} (Coefficient of Determination),即 $R^2$ (R-squared),是衡量模型对数据拟合程度最常用的指标。它度量了因变量 $Y$ 的总变异中,可以被自变量 $X$ 解释的比例。
其计算公式为: $$ R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} = \frac{\text{ESS}}{\text{TSS}} $$
* {{{TSS (Total Sum of Squares)}}}: 总平方和,$\sum (y_i - \bar{y})^2$,代表了 $Y$ 的总变异。 * {{{RSS (Residual Sum of Squares)}}}: 残差平方和,$\sum (y_i - \hat{y}_i)^2$,代表了模型未能解释的变异。 * {{{ESS (Explained Sum of Squares)}}}: 解释平方和,$\sum (\hat{y}_i - \bar{y})^2$,代表了模型能够解释的变异。
$R^2$ 的取值范围在0和1之间。$R^2$ 越接近1,说明模型对数据的拟合效果越好;越接近0,则说明模型解释能力越差。
### 2. 参数的统计显著性检验
我们还需要检验自变量 $X$ 是否真的对因变量 $Y$ 有显著的线性影响。这等价于检验斜率参数 $\beta_1$ 是否显著不为零。这通常通过 {{{假设检验}}} 来完成。
检验斜率 $\beta_1$ 的标准步骤如下: * 设立原假设和备择假设: * 原假设 $H_0: \beta_1 = 0$ (即 $X$ 和 $Y$ 之间没有线性关系)。 * 备择假设 $H_1: \beta_1 \neq 0$ (即 $X$ 和 $Y$ 之间存在线性关系)。
* 计算检验统计量: 我们使用 {{{t-统计量}}} 来进行检验,其计算公式为: $$ t = \frac{\hat{\beta}_1 - 0}{\text{SE}(\hat{\beta}_1)} $$ 其中 $\text{SE}(\hat{\beta}_1)$ 是 $\hat{\beta}_1$ 的 {{{标准误}}} (Standard Error),它度量了对 $\beta_1$ 估计值的不确定性。一个较小的标准误意味着我们的估计更精确。
* 做出决策: 我们可以通过比较计算出的t值与来自 {{{t-分布}}} 的临界值,或者更直接地查看 {{{p-值}}} (p-value)。 * 如果 p-值小于预设的{{{显著性水平}}} $\alpha$ (通常为0.05, 0.01或0.10),我们就拒绝原假设 $H_0$,认为自变量 $X$ 对因变量 $Y$ 具有统计上显著的线性影响。
## 经典线性回归模型的假设
OLS估计量的优良性质(如无偏性、有效性)依赖于一组被称为 经典线性回归模型 (Classical Linear Regression Model, CLRM) 的假设,其中最重要的几条(即 {{{高斯-马尔可夫假设}}})是:
1. 线性于参数:模型 $Y = \beta_0 + \beta_1 X + \varepsilon$ 在参数 $\beta_0, \beta_1$ 上是线性的。 2. 随机抽样:数据 $(x_i, y_i)$ 是从总体中随机抽取的。 3. 条件均值为零:误差项的期望值在给定 $X$ 的条件下为零,即 $E(\varepsilon|X) = 0$。这是最关键的假设,它意味着自变量与误差项不相关,排除了许多内生性问题。 4. {{{同方差性}}} (Homoscedasticity):误差项的方差对于所有 $X$ 的值都是一个常数,即 $\text{Var}(\varepsilon|X) = \sigma^2$。如果此假设不成立,则存在 {{{异方差性}}} (Heteroscedasticity)。 5. 无{{{自相关}}} (No Autocorrelation):任意两个不同观测的误差项之间不相关,即 $\text{Cov}(\varepsilon_i, \varepsilon_j|X) = 0$ for $i \neq j$。这个问题在{{{时间序列数据}}}中尤为常见。
当这些假设满足时,根据{{{高斯-马尔可夫定理}}},OLS估计量是 最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。
## 扩展:多元线性回归
当存在多个自变量时,模型就扩展为 {{{多元线性回归}}} (Multiple Linear Regression):
$$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \varepsilon $$
这里的每个回归系数 $\beta_j$ 的解释变为:在 保持其他所有自变量不变 ({{{ceteris paribus}}}) 的条件下,$X_j$ 每增加一个单位, $Y$ 的期望变化量。
在多元回归中,需要额外关注 {{{多重共线性}}} (Multicollinearity) 问题,即自变量之间存在高度相关性,这会使得参数估计值的方差变大,降低模型的稳定性和解释力。同时,在评估多元回归模型时,通常使用 {{{调整后R方}}} (Adjusted R-squared),因为它对模型中自变量的数量进行了惩罚,可以更公允地比较含有不同数量自变量的模型。