ARTICLE
回归分析
回归分析 (Regression Analysis) 回归分析 (Regression Analysis) 是一种强大的、应用广泛的 统计学 和 计量经济学 技术,用于研究一个或多个自变量(Independent Variables)与一个因变量(Dependent Variable)之间的关系。它的核心目标是建立一个数学模型来描述这些变量之间的依赖关系,并
回归分析 (Regression Analysis)
回归分析 (Regression Analysis) 是一种强大的、应用广泛的 统计学 和 计量经济学 技术,用于研究一个或多个自变量(Independent Variables)与一个因变量(Dependent Variable)之间的关系。它的核心目标是建立一个数学模型来描述这些变量之间的依赖关系,并利用这个模型进行预测、推断和假设检验。
回归分析试图回答以下几类问题:
- 关系描述:变量之间是否存在关系?例如,广告支出和销售额之间有关联吗?
- 效应量化:如果存在关系,其强度和方向如何?例如,教育年限每增加一年,个人收入平均会增加多少?
- 预测:基于已知的自变量值,来预测因变量的可能值。例如,根据房屋的面积、位置和房龄,预测其售价。
这个名称"回归"源于 弗朗西斯·高尔顿 在 19 世纪对遗传学的研究,他发现杰出父辈的子辈身高虽然也高于平均水平,但有向全体人口的平均身高"回归"的趋势。如今,这个词的含义已远超其最初的语境。
核心组成部分
一个回归模型主要由以下几个部分构成:
- 因变量 (Dependent Variable):也称为响应变量 (Response Variable)、被解释变量 (Explained Variable) 或结果变量 (Outcome Variable)。这是我们试图理解或预测的变量,通常用 表示。
- 自变量 (Independent Variable):也称为解释变量 (Explanatory Variable)、预测变量 (Predictor Variable) 或回归元 (Regressor)。这些是被用来解释或预测因变量变化的变量,通常用 表示。回归模型可以包含一个或多个自变量。
简单线性回归模型 (Simple Linear Regression)
最基础的回归模型是 简单线性回归,它只涉及一个自变量和一个因变量,并假设它们之间的关系是线性的。其数学表达式为:
我们来逐一解析这个公式的每个组成部分:
- :因变量。
- :自变量。
- (Beta naught):这是模型的 截距 (Intercept)。它表示当自变量 的值为 0 时,因变量 的期望值。在某些情境下,截距可能没有直接的现实解释(例如,当 不可能为 0 时),但它在数学上是确定这条直线的关键部分。
- (Beta one):这是模型的 斜率 (Slope),也称为 回归系数 (Regression Coefficient)。这是回归分析中最重要的参数之一。它衡量的是:当自变量 每增加一个单位时,因变量 的平均变化量。 \begin{itemize}
- 如果 ,表示 与 之间存在正向关系。
- 如果 ,表示 与 之间存在负向关系。
- 如果 ,表示 与 之间没有线性关系。
\item (Epsilon):这是 误差项 (Error Term) 或 残差 (Residual)。它代表了所有没有被模型包含进来的、能够影响 的其他因素的总和。误差项的存在是必不可少的,因为它承认了模型不可能是完美的。这些因素可能包括:模型中遗漏的其他变量、测量误差、以及现实世界固有的随机性。 \end{itemize}
如何估计参数:普通最小二乘法 (OLS)
模型中的 和 是未知的总体参数。我们需要从样本数据中估计出它们的值,通常用 和 表示。最常用的估计方法是 普通最小二乘法 (Ordinary Least Squares, OLS)。
OLS 的核心思想是:寻找一条直线,使得所有观测数据点到这条直线的垂直距离的平方和最小。
假设我们有 个数据点 。对于任意一个数据点 ,其观测值为 ,而我们的模型预测值为 。OLS 的目标就是选择能最小化以下这个"残差平方和"(Sum of Squared Residuals, SSR) 的 和 :
通过 微积分 中的求导方法,可以找到使这个表达式最小化的解析解,从而得到 和 的估计值。
回归模型的类型
除了简单线性回归,还有许多其他类型的回归模型,以适应不同类型的数据和关系。
- 多元线性回归 (Multiple Linear Regression):当存在多个自变量时使用。模型形式为: \[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilon \] 在这里,每个系数 的解释变为:在保持所有其他自变量不变的情况下 (), 每增加一个单位, 的平均变化量。
- 多项式回归 (Polynomial Regression):用于拟合非线性关系。通过在模型中加入自变量的高次项(如平方项、立方项)来实现。例如: \[ Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon \] 这个模型可以拟合抛物线形状的数据。值得注意的是,尽管它描述的是 和 之间的非线性关系,但它在参数 上仍然是线性的,因此仍可使用 OLS 进行估计。
- 逻辑回归 (Logistic Regression):当因变量是分类变量(特别是二元变量,如"是/否"、"成功/失败")时使用。它不对 本身建模,而是对 属于某一类别的 概率 进行建模。
- 其他模型:还包括用于处理 多重共线性 问题的 岭回归 (Ridge Regression) 和 Lasso回归,以及处理 时间序列数据 中 自相关 问题的模型等。
评估模型的好坏 (Goodness of Fit)
建立模型后,我们需要评估它的拟合优度和解释能力。
- R-squared ():决定系数 (Coefficient of Determination)。它衡量了因变量 的总变异中,可以被自变量 解释的百分比。 的取值范围在 0 和 1 之间。一个接近 1 的 值表明模型解释了大部分 的变异,而一个接近 0 的值则表明模型解释能力很差。
- Adjusted R-squared (调整后的 R-squared):在多元回归中, 有一个缺点:即使增加一个完全无关的自变量,它也只会增加或保持不变。调整后的 R-squared 通过引入对自变量数量的惩罚项,解决了这个问题。因此,在比较包含不同数量自变量的模型时,它是一个更好的指标。
- 假设检验 (Hypothesis Testing): \begin{itemize}
- t-检验 (t-test):用于检验单个回归系数是否显著不为零。我们通常检验的原假设是 。如果检验的 p-value 小于一个显著性水平(如 0.05),我们则拒绝原假设,认为自变量 对因变量 有显著的统计影响。
- F-检验 (F-test):用于检验整个模型的总体显著性。它检验所有系数(除截距外)是否联合为零的原假设 ()。如果 F 检验显著,则说明模型中至少有一个自变量是有效的。 \end{itemize}
重要的假设
为了让 OLS 估计量具有良好的统计性质(如 无偏性 和有效性),以及让假设检验有效,经典线性回归模型依赖于一系列假设:
- 线性关系:因变量和自变量之间存在线性关系。
- 误差项的条件均值为零:。这意味着误差项与自变量不相关。
- 同方差性 (Homoscedasticity):对于所有自变量的值,误差项的方差都是恒定的。如果方差不恒定,则称之为 异方差性 (Heteroscedasticity)。
- 无 自相关 (No Autocorrelation):误差项之间相互独立。这个问题在时间序列数据中尤为常见。
- 正态性 (Normality):误差项服从 正态分布。这个假设对于在小样本中进行精确的假设检验至关重要。
相关性 不等于 因果性
最后,也是最重要的一点:回归分析本身只能证明变量之间的 相关性 (Correlation),而不能直接证明 因果性 (Causation)。即使我们发现 和 之间有很强的统计关系,也可能是因为存在一个被遗漏的变量同时影响了 和 ,或者因果关系是反向的。确定因果关系需要更严谨的研究设计(如 随机对照试验)或更高级的计量经济学方法(如 工具变量法、断点回归设计 等)。