回归线 (Regression Line)
回归线 (Regression Line)是统计学 与计量经济学 中最基本的分析工具之一,用以刻画一个因变量(被解释变量)与一个或多个自变量(解释变量)之间的平均数量关系。其名称源于 Francis Galton 在19世纪末对父子身高关系的研究——Galton 发现,较高父亲的儿子平均身高虽高于总体均值,却倾向于向均值"回归"(regression toward the mean),由此命名。
在现代统计学框架下,回归线特指通过最小二乘法 (Ordinary Least Squares, OLS)拟合得到的线性方程。对于简单线性回归模型:
Y i = β 0 + β 1 X i + ε i Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i Y i = β 0 + β 1 X i + ε i
回归线的估计形式为 Y ^ i = β ^ 0 + β ^ 1 X i \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i Y ^ i = β ^ 0 + β ^ 1 X i ,其中参数通过最小化残差平方和得到。
最小二乘估计
OLS 的核心思想是选择截距 β 0 \beta_0 β 0 与斜率 β 1 \beta_1 β 1 ,使得所有观测点到回归直线的垂直距离之平方和最小。定义残差平方和(RSS):
RSS ( β 0 , β 1 ) = ∑ i = 1 n ( Y i − β 0 − β 1 X i ) 2 \text{RSS}(\beta_0, \beta_1) = \sum_{i=1}^{n} (Y_i - \beta_0 - \beta_1 X_i)^2 RSS ( β 0 , β 1 ) = i = 1 ∑ n ( Y i − β 0 − β 1 X i ) 2
分别对 β 0 \beta_0 β 0 、β 1 \beta_1 β 1 求一阶导数并令其为零,得到正规方程组,解得:
β ^ 1 = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ i = 1 n ( X i − X ˉ ) 2 = Cov ( X , Y ) Var ( X ) \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{\text{Cov}(X, Y)}{\text{Var}(X)} β ^ 1 = ∑ i = 1 n ( X i − X ˉ ) 2 ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) = Var ( X ) Cov ( X , Y )
β ^ 0 = Y ˉ − β ^ 1 X ˉ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} β ^ 0 = Y ˉ − β ^ 1 X ˉ
斜率 β ^ 1 \hat{\beta}_1 β ^ 1 的几何意义为:X X X 每变动一个单位,Y Y Y 平均变动 β ^ 1 \hat{\beta}_1 β ^ 1 个单位。截距 β ^ 0 \hat{\beta}_0 β ^ 0 为 X = 0 X = 0 X = 0 时 Y Y Y 的预测值。
回归线必然经过样本均值点 ( X ˉ , Y ˉ ) (\bar{X}, \bar{Y}) ( X ˉ , Y ˉ ) ,残差之和 ∑ ε ^ i = 0 \sum \hat{\varepsilon}_i = 0 ∑ ε ^ i = 0 ,且残差与解释变量正交 ∑ X i ε ^ i = 0 \sum X_i \hat{\varepsilon}_i = 0 ∑ X i ε ^ i = 0 。
拟合优度与 R 2 R^2 R 2
回归线对数据拟合程度的度量由决定系数 R 2 R^2 R 2 给出。将总平方和(TSS)分解为回归平方和(ESS)与残差平方和(RSS):
∑ ( Y i − Y ˉ ) 2 ⏟ TSS = ∑ ( Y ^ i − Y ˉ ) 2 ⏟ ESS + ∑ ε ^ i 2 ⏟ RSS \underbrace{\sum (Y_i - \bar{Y})^2}_{\text{TSS}} = \underbrace{\sum (\hat{Y}_i - \bar{Y})^2}_{\text{ESS}} + \underbrace{\sum \hat{\varepsilon}_i^2}_{\text{RSS}} TSS ∑ ( Y i − Y ˉ ) 2 = ESS ∑ ( Y ^ i − Y ˉ ) 2 + RSS ∑ ε ^ i 2
R 2 = ESS TSS = 1 − RSS TSS ∈ [ 0 , 1 ] R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}} \in [0, 1] R 2 = TSS ESS = 1 − TSS RSS ∈ [ 0 , 1 ]
R 2 R^2 R 2 衡量了 Y Y Y 的变异中能被 X X X 线性解释的比例。在简单线性回归中,R 2 = r X Y 2 R^2 = r_{XY}^2 R 2 = r X Y 2 ,即等于样本相关系数的平方。
高斯-马尔可夫定理
在经典线性回归假设(CLRM)下——包括线性性、严格外生性 E [ ε i ∣ X ] = 0 \mathbb{E}[\varepsilon_i \mid X] = 0 E [ ε i ∣ X ] = 0 、同方差性 Var ( ε i ∣ X ) = σ 2 \text{Var}(\varepsilon_i \mid X) = \sigma^2 Var ( ε i ∣ X ) = σ 2 和无自相关性 Cov ( ε i , ε j ∣ X ) = 0 ( i ≠ j ) \text{Cov}(\varepsilon_i, \varepsilon_j \mid X) = 0 \; (i \neq j) Cov ( ε i , ε j ∣ X ) = 0 ( i = j ) ——高斯-马尔可夫定理 (Gauss-Markov Theorem)断言:OLS 估计量 β ^ \hat{\beta} β ^ 是最优线性无偏估计量 (Best Linear Unbiased Estimator, BLUE),即在线性无偏估计量类中,OLS 具有最小方差。
多元回归线与 ceteris paribus 解释
推广至多个解释变量,回归线变为 k k k 维空间中的超平面:
Y ^ = β ^ 0 + β ^ 1 X 1 + β ^ 2 X 2 + ⋯ + β ^ k X k \hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X_1 + \hat{\beta}_2 X_2 + \cdots + \hat{\beta}_k X_k Y ^ = β ^ 0 + β ^ 1 X 1 + β ^ 2 X 2 + ⋯ + β ^ k X k
斜率 β ^ j \hat{\beta}_j β ^ j 的解释变为:在其他条件不变 (ceteris paribus)的前提下,X j X_j X j 每变动一个单位,Y Y Y 的平均变动量。这一"控制其他变量"的偏效应解释是计量经济学因果推断的核心工具。OLS 通过Frisch-Waugh-Lovell 定理 将 β ^ j \hat{\beta}_j β ^ j 等价于 Y Y Y 对 X j X_j X j 在剥离其他变量线性影响后的回归系数,从而在代数上实现了 ceteris paribus。
假设检验与置信区间
在正态性假设 ε i ∣ X ∼ N ( 0 , σ 2 ) \varepsilon_i \mid X \sim N(0, \sigma^2) ε i ∣ X ∼ N ( 0 , σ 2 ) 下:
β ^ j − β j se ( β ^ j ) ∼ t n − k − 1 \frac{\hat{\beta}_j - \beta_j}{\text{se}(\hat{\beta}_j)} \sim t_{n-k-1} se ( β ^ j ) β ^ j − β j ∼ t n − k − 1
可用于检验 H 0 : β j = 0 H_0: \beta_j = 0 H 0 : β j = 0 ,其中 se ( β ^ j ) = σ ^ 2 [ ( X ′ X ) − 1 ] j j \text{se}(\hat{\beta}_j) = \sqrt{\hat{\sigma}^2 [(X'X)^{-1}]_{jj}} se ( β ^ j ) = σ ^ 2 [( X ′ X ) − 1 ] jj 。若 ∣ t ∣ > t α / 2 , n − k − 1 |t| > t_{\alpha/2, n-k-1} ∣ t ∣ > t α /2 , n − k − 1 ,则在显著性水平 α \alpha α 下拒绝零假设,认为 X j X_j X j 对 Y Y Y 具有统计显著的线性影响。
局限性与诊断
回归线的可靠性依赖于若干假设的成立。多重共线性 (multicollinearity)使得 ( X ′ X ) (X'X) ( X ′ X ) 接近奇异,参数估计方差膨胀,系数符号与量级不稳定。异方差性 违背同方差假设,OLS 不再高效,需使用White稳健标准误 或加权最小二乘法 (WLS)。内生性 ——即 E [ X ε ] ≠ 0 \mathbb{E}[X \varepsilon] \neq 0 E [ Xε ] = 0 ——使 OLS 估计丧失一致性,需借助工具变量法 (IV)或两阶段最小二乘法 (2SLS)处理。此外,异常值 与高杠杆点 可能对回归线产生过度影响,可利用 Cook 距离与 DFBETAS 等诊断统计量进行识别。
诊断工具包括残差图(残差 vs 拟合值、Q-Q 图)以检验线性性与正态性,Durbin-Watson 统计量检验一阶自相关,方差膨胀因子(VIF)检测多重共线性。
回归线的现代拓展
回归分析已从经典线性模型拓展至广义线性模型 (GLM)、非参数回归 (如核回归、局部线性回归)、岭回归 与LASSO 等正则化方法,以及分位数回归 。这些拓展在放松线性与正态假设的同时,保留了回归线作为条件期望估计器的核心思想——描述在给定 X X X 下 Y Y Y 的平均行为。
Karl Pearson 曾言,回归线是"过去的法则",其魅力正在于以最简单的数学形式——一条直线——承载了从生物学到宏观经济学无所不包的实证分析。即使在机器学习 高度发达的当代,回归线依然是数据分析中最基础也最不可或缺的工具:它既是理解复杂模型的出发点,也是评估复杂模型预测能力的基线。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。