ARTICLE

回归分析

回归分析 (Regression Analysis) 回归分析 (Regression Analysis) 是一种强大的、应用广泛的统计学和计量经济学技术，用于研究一个或多个自变量（Independent Variables）与一个因变量（Dependent Variable）之间的关系。它的核心目标是建立一个数学模型来描述这些变量之间的依赖关系，并

浏览 57 更新 2025-10-26

回归分析 (Regression Analysis)

回归分析 (Regression Analysis) 是一种强大的、应用广泛的统计学和计量经济学技术，用于研究一个或多个自变量（Independent Variables）与一个因变量（Dependent Variable）之间的关系。它的核心目标是建立一个数学模型来描述这些变量之间的依赖关系，并利用这个模型进行预测、推断和假设检验。

回归分析试图回答以下几类问题：

关系描述：变量之间是否存在关系？例如，广告支出和销售额之间有关联吗？
效应量化：如果存在关系，其强度和方向如何？例如，教育年限每增加一年，个人收入平均会增加多少？
预测：基于已知的自变量值，来预测因变量的可能值。例如，根据房屋的面积、位置和房龄，预测其售价。

这个名称"回归"源于弗朗西斯·高尔顿在 19 世纪对遗传学的研究，他发现杰出父辈的子辈身高虽然也高于平均水平，但有向全体人口的平均身高"回归"的趋势。如今，这个词的含义已远超其最初的语境。

核心组成部分

一个回归模型主要由以下几个部分构成：

因变量 (Dependent Variable)：也称为响应变量 (Response Variable)、被解释变量 (Explained Variable) 或结果变量 (Outcome Variable)。这是我们试图理解或预测的变量，通常用 $Y$ 表示。
自变量 (Independent Variable)：也称为解释变量 (Explanatory Variable)、预测变量 (Predictor Variable) 或回归元 (Regressor)。这些是被用来解释或预测因变量变化的变量，通常用 $X$ 表示。回归模型可以包含一个或多个自变量。

简单线性回归模型 (Simple Linear Regression)

最基础的回归模型是 简单线性回归，它只涉及一个自变量和一个因变量，并假设它们之间的关系是线性的。其数学表达式为：

Y = \beta_0 + \beta_1 X + \epsilon

我们来逐一解析这个公式的每个组成部分：

$Y$ ：因变量。
$X$ ：自变量。
$\beta_0$ (Beta naught)：这是模型的 截距 (Intercept)。它表示当自变量 $X$ 的值为 0 时，因变量 $Y$ 的期望值。在某些情境下，截距可能没有直接的现实解释（例如，当 $X$ 不可能为 0 时），但它在数学上是确定这条直线的关键部分。
$\beta_1$ (Beta one)：这是模型的 斜率 (Slope)，也称为 回归系数 (Regression Coefficient)。这是回归分析中最重要的参数之一。它衡量的是：当自变量 $X$ 每增加一个单位时，因变量 $Y$ 的平均变化量。 \begin{itemize}
如果 $\beta_1 > 0$ ，表示 $X$ 与 $Y$ 之间存在正向关系。
如果 $\beta_1 < 0$ ，表示 $X$ 与 $Y$ 之间存在负向关系。
如果 $\beta_1 = 0$ ，表示 $X$ 与 $Y$ 之间没有线性关系。

\item $\epsilon$ (Epsilon)：这是 误差项 (Error Term) 或 残差 (Residual)。它代表了所有没有被模型包含进来的、能够影响 $Y$ 的其他因素的总和。误差项的存在是必不可少的，因为它承认了模型不可能是完美的。这些因素可能包括：模型中遗漏的其他变量、测量误差、以及现实世界固有的随机性。 \end{itemize}

如何估计参数：普通最小二乘法 (OLS)

模型中的 $\beta_0$ 和 $\beta_1$ 是未知的总体参数。我们需要从样本数据中估计出它们的值，通常用 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 表示。最常用的估计方法是 普通最小二乘法 (Ordinary Least Squares, OLS)。

OLS 的核心思想是：寻找一条直线，使得所有观测数据点到这条直线的垂直距离的平方和最小。

假设我们有 $n$ 个数据点 $(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)$ 。对于任意一个数据点 $i$ ，其观测值为 $y_i$ ，而我们的模型预测值为 $\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$ 。OLS 的目标就是选择能最小化以下这个"残差平方和"(Sum of Squared Residuals, SSR) 的 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ ：

\min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \min_{\hat{\beta}_0, \hat{\beta}_1} \sum_{i=1}^{n} (y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i))^2

通过微积分中的求导方法，可以找到使这个表达式最小化的解析解，从而得到 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 的估计值。

回归模型的类型

除了简单线性回归，还有许多其他类型的回归模型，以适应不同类型的数据和关系。

多元线性回归 (Multiple Linear Regression)：当存在多个自变量时使用。模型形式为： \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon \] 在这里，每个系数 $\beta_j$ 的解释变为：在保持所有其他自变量不变的情况下 ( $\textit{ceteris paribus}$ )， $X_j$ 每增加一个单位， $Y$ 的平均变化量。
多项式回归 (Polynomial Regression)：用于拟合非线性关系。通过在模型中加入自变量的高次项（如平方项、立方项）来实现。例如： \[ Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon \] 这个模型可以拟合抛物线形状的数据。值得注意的是，尽管它描述的是 $X$ 和 $Y$ 之间的非线性关系，但它在参数 $\beta$ 上仍然是线性的，因此仍可使用 OLS 进行估计。
逻辑回归 (Logistic Regression)：当因变量是分类变量（特别是二元变量，如"是/否"、"成功/失败"）时使用。它不对 $Y$ 本身建模，而是对 $Y$ 属于某一类别的概率进行建模。
其他模型：还包括用于处理多重共线性问题的岭回归 (Ridge Regression) 和 Lasso回归，以及处理时间序列数据中自相关问题的模型等。

评估模型的好坏 (Goodness of Fit)

建立模型后，我们需要评估它的拟合优度和解释能力。

R-squared ( $R^2$ )：决定系数 (Coefficient of Determination)。它衡量了因变量 $Y$ 的总变异中，可以被自变量 $X$ 解释的百分比。 $R^2$ 的取值范围在 0 和 1 之间。一个接近 1 的 $R^2$ 值表明模型解释了大部分 $Y$ 的变异，而一个接近 0 的值则表明模型解释能力很差。
Adjusted R-squared (调整后的 R-squared)：在多元回归中， $R^2$ 有一个缺点：即使增加一个完全无关的自变量，它也只会增加或保持不变。调整后的 R-squared 通过引入对自变量数量的惩罚项，解决了这个问题。因此，在比较包含不同数量自变量的模型时，它是一个更好的指标。
假设检验 (Hypothesis Testing)： \begin{itemize}
t-检验 (t-test)：用于检验单个回归系数是否显著不为零。我们通常检验的原假设是 $H_0: \beta_j = 0$ 。如果检验的 p-value 小于一个显著性水平（如 0.05），我们则拒绝原假设，认为自变量 $X_j$ 对因变量 $Y$ 有显著的统计影响。
F-检验 (F-test)：用于检验整个模型的总体显著性。它检验所有系数（除截距外）是否联合为零的原假设 ( $H_0: \beta_1 = \beta_2 = \dots = \beta_k = 0$ )。如果 F 检验显著，则说明模型中至少有一个自变量是有效的。 \end{itemize}

重要的假设

为了让 OLS 估计量具有良好的统计性质（如无偏性和有效性），以及让假设检验有效，经典线性回归模型依赖于一系列假设：

线性关系：因变量和自变量之间存在线性关系。
误差项的条件均值为零： $E(\epsilon \mid X) = 0$ 。这意味着误差项与自变量不相关。
同方差性 (Homoscedasticity)：对于所有自变量的值，误差项的方差都是恒定的。如果方差不恒定，则称之为异方差性 (Heteroscedasticity)。
无自相关 (No Autocorrelation)：误差项之间相互独立。这个问题在时间序列数据中尤为常见。
正态性 (Normality)：误差项服从正态分布。这个假设对于在小样本中进行精确的假设检验至关重要。