ARTICLE

回归线

回归线 (Regression Line) 回归线(Regression Line)是统计学与计量经济学中最基本的分析工具之一,用以刻画一个因变量(被解释变量)与一个或多个自变量(解释变量)之间的平均数量关系。其名称源于 Francis Galton 在19世纪末对父子身高关系的研究——Galton 发现,较高父亲的儿子平均身高虽高于总体均值,却倾向于向均值

浏览 4 更新 2026-07-21

回归线 (Regression Line)

回归线(Regression Line)是统计学计量经济学中最基本的分析工具之一,用以刻画一个因变量(被解释变量)与一个或多个自变量(解释变量)之间的平均数量关系。其名称源于 Francis Galton 在19世纪末对父子身高关系的研究——Galton 发现,较高父亲的儿子平均身高虽高于总体均值,却倾向于向均值"回归"(regression toward the mean),由此命名。

在现代统计学框架下,回归线特指通过最小二乘法(Ordinary Least Squares, OLS)拟合得到的线性方程。对于简单线性回归模型:

Yi=β0+β1Xi+εiY_i = \beta_0 + \beta_1 X_i + \varepsilon_i

回归线的估计形式为 Y^i=β^0+β^1Xi\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i,其中参数通过最小化残差平方和得到。

最小二乘估计

OLS 的核心思想是选择截距 β0\beta_0 与斜率 β1\beta_1,使得所有观测点到回归直线的垂直距离之平方和最小。定义残差平方和(RSS):

RSS(β0,β1)=i=1n(Yiβ0β1Xi)2\text{RSS}(\beta_0, \beta_1) = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2

分别对 β0\beta_0β1\beta_1 求一阶导数并令其为零,得到正规方程组,解得:

β^1=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2=Cov(X,Y)Var(X)\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}
β^0=Yˉβ^1Xˉ\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}

斜率 β^1\hat{\beta}_1 的几何意义为:XX 每变动一个单位,YY 平均变动 β^1\hat{\beta}_1 个单位。截距 β^0\hat{\beta}_0X=0X = 0YY 的预测值。

回归线必然经过样本均值点 (Xˉ,Yˉ)(\bar{X}, \bar{Y}),残差之和 ε^i=0\sum \hat{\varepsilon}_i = 0,且残差与解释变量正交 Xiε^i=0\sum X_i \hat{\varepsilon}_i = 0

拟合优度与 R2R^2

回归线对数据拟合程度的度量由决定系数 R2R^2 给出。将总平方和(TSS)分解为回归平方和(ESS)与残差平方和(RSS):

(YiYˉ)2TSS=(Y^iYˉ)2ESS+ε^i2RSS\underbrace{\sum (Y_i - \bar{Y})^2}_{\text{TSS}} = \underbrace{\sum (\hat{Y}_i - \bar{Y})^2}_{\text{ESS}} + \underbrace{\sum \hat{\varepsilon}_i^2}_{\text{RSS}}
R2=ESSTSS=1RSSTSS[0,1]R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} \in [0, 1]

R2R^2 衡量了 YY 的变异中能被 XX 线性解释的比例。在简单线性回归中,R2=rXY2R^2 = r_{XY}^2,即等于样本相关系数的平方。

高斯-马尔可夫定理

在经典线性回归假设(CLRM)下——包括线性性、严格外生性 E[εiX]=0\mathbb{E}[\varepsilon_i \mid X] = 0、同方差性 Var(εiX)=σ2\text{Var}(\varepsilon_i \mid X) = \sigma^2 和无自相关性 Cov(εi,εjX)=0  (ij)\text{Cov}(\varepsilon_i, \varepsilon_j \mid X) = 0 \; (i \neq j)——高斯-马尔可夫定理(Gauss-Markov Theorem)断言:OLS 估计量 β^\hat{\beta}最优线性无偏估计量(Best Linear Unbiased Estimator, BLUE),即在线性无偏估计量类中,OLS 具有最小方差。

多元回归线与 ceteris paribus 解释

推广至多个解释变量,回归线变为 kk 维空间中的超平面:

Y^=β^0+β^1X1+β^2X2++β^kXk\hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X_1 + \hat{\beta}_2 X_2 + \cdots + \hat{\beta}_k X_k

斜率 β^j\hat{\beta}_j 的解释变为:在其他条件不变(ceteris paribus)的前提下,XjX_j 每变动一个单位,YY 的平均变动量。这一"控制其他变量"的偏效应解释是计量经济学因果推断的核心工具。OLS 通过Frisch-Waugh-Lovell 定理β^j\hat{\beta}_j 等价于 YYXjX_j 在剥离其他变量线性影响后的回归系数,从而在代数上实现了 ceteris paribus。

假设检验与置信区间

在正态性假设 εiXN(0,σ2)\varepsilon_i \mid X \sim N(0, \sigma^2) 下:

β^jβjse(β^j)tnk1\frac{\hat{\beta}_j - \beta_j}{\text{se}(\hat{\beta}_j)} \sim t_{n-k-1}

可用于检验 H0:βj=0H_0: \beta_j = 0,其中 se(β^j)=σ^2[(XX)1]jj\text{se}(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 [(X'X)^{-1}]_{jj}}。若 t>tα/2,nk1|t| > t_{\alpha/2, n-k-1},则在显著性水平 α\alpha 下拒绝零假设,认为 XjX_jYY 具有统计显著的线性影响。

局限性与诊断

回归线的可靠性依赖于若干假设的成立。多重共线性(multicollinearity)使得 (XX)(X'X) 接近奇异,参数估计方差膨胀,系数符号与量级不稳定。异方差性违背同方差假设,OLS 不再高效,需使用White稳健标准误加权最小二乘法(WLS)。内生性——即 E[Xε]0\mathbb{E}[X \varepsilon] \neq 0——使 OLS 估计丧失一致性,需借助工具变量法(IV)或两阶段最小二乘法(2SLS)处理。此外,异常值高杠杆点可能对回归线产生过度影响,可利用 Cook 距离与 DFBETAS 等诊断统计量进行识别。

诊断工具包括残差图(残差 vs 拟合值、Q-Q 图)以检验线性性与正态性,Durbin-Watson 统计量检验一阶自相关,方差膨胀因子(VIF)检测多重共线性。

回归线的现代拓展

回归分析已从经典线性模型拓展至广义线性模型(GLM)、非参数回归(如核回归、局部线性回归)、岭回归LASSO等正则化方法,以及分位数回归。这些拓展在放松线性与正态假设的同时,保留了回归线作为条件期望估计器的核心思想——描述在给定 XXYY 的平均行为。

Karl Pearson 曾言,回归线是"过去的法则",其魅力正在于以最简单的数学形式——一条直线——承载了从生物学到宏观经济学无所不包的实证分析。即使在机器学习高度发达的当代,回归线依然是数据分析中最基础也最不可或缺的工具:它既是理解复杂模型的出发点,也是评估复杂模型预测能力的基线。