# 回归模型 (Regression Model)
回归模型 (Regression Model) 是{{{统计学}}}、{{{计量经济学}}}和{{{机器学习}}}中用于研究变量之间关系的一种核心的{{{预测模型}}}。它的主要目标是建立一个数学方程,以描述一个或多个自变量(Independent Variables)如何影响一个因变量(Dependent Variable)。通过这个模型,我们不仅可以理解变量间关系的性质(例如,是正向还是负向,关系的强度如何),还可以利用已知的自变量值来预测或估计因变量的值。
回归分析的概念最早由[[弗朗西斯·高尔顿]]在研究父代与子代身高关系时提出,他观察到子代的身高有“回归”到人类平均身高的趋势,这便是“回归”一词的由来。
## 回归模型的基本结构
一个通用的回归模型可以表示为:
$$ Y = f(X_1, X_2, \ldots, X_k; \beta) + \varepsilon $$
这个方程的组成部分是理解所有回归模型的关键:
1. {{{因变量}}} (Dependent Variable), $Y$:也称为响应变量 (Response Variable)、结果变量 (Outcome Variable) 或被解释变量 (Explained Variable)。这是我们试图理解或预测的主要变量。例如,在经济学中,$Y$ 可以是某人的工资、一个国家的{{{GDP}}}增长率,或一支股票的收益率。
2. {{{自变量}}} (Independent Variables), $X_1, X_2, \ldots, X_k$:也称为解释变量 (Explanatory Variables)、预测变量 (Predictors)、回归量 (Regressors) 或协变量 (Covariates)。这些是用来解释或预测因变量 $Y$ 变化的变量。例如,若 $Y$ 是工资,则 $X$ 变量可以包括教育年限、工作经验和所在行业。
3. {{{参数}}} (Parameters), $\beta$:也称为回归系数 (Regression Coefficients)。这些是模型需要从数据中估计的未知常数。它们量化了自变量对因变量的影响。例如,在简单的线性模型 $Y = \beta_0 + \beta_1 X + \varepsilon$ 中: * $\beta_0$ 是截距项 (Intercept),表示所有自变量都为零时 $Y$ 的期望值。 * $\beta_1$ 是斜率系数 (Slope Coefficient),表示当 $X$ 变化一个单位时,$Y$ 的期望变化量。
4. {{{误差项}}} (Error Term), $\varepsilon$:也称为扰动项 (Disturbance) 或残差 (Residual)(在估计后)。这个项至关重要,它代表了所有未能被模型中自变量解释的 $Y$ 的变异。其来源包括: * 遗漏变量:许多其他可能影响 $Y$ 但未被包含在模型中的因素。 * 测量误差:变量 $Y$ 或 $X$ 的测量可能不完全精确。 * 固有的随机性:人类行为或经济系统中存在的内在不确定性。 在构建模型时,通常对误差项做出一系列假定,例如其期望值为零 ($E(\varepsilon) = 0$)。
## 主要的回归模型类型
回归模型根据自变量的数量、函数形式以及因变量的类型可以分为多种。
### 按自变量数量划分
* {{{简单回归}}} (Simple Regression):模型中只包含一个自变量。最常见的形式是{{{简单线性回归}}}: $$ Y = \beta_0 + \beta_1 X + \varepsilon $$ 例如,使用教育年限 ($X$) 来预测工资 ($Y$)。
* {{{多元回归}}} (Multiple Regression):模型中包含两个或多个自变量。这在现实世界中更为常见,因为它允许我们同时控制多个因素的影响。其线性形式为: $$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_k X_k + \varepsilon $$ 例如,使用教育年限 ($X_1$)、工作经验 ($X_2$) 和性别 ($X_3$) 共同预测工资 ($Y$)。在解释多元回归系数时(如 $\beta_1$),必须强调是在保持其他自变量不变 ({{{ceteris paribus}}}) 的前提下,$X_1$ 每增加一个单位对 $Y$ 的影响。
### 按函数关系划分
* {{{线性回归}}} (Linear Regression):这是指模型在参数 $\beta$ 上是线性的。变量本身可以是非线性的。例如,模型 $Y = \beta_0 + \beta_1 X^2 + \varepsilon$ 仍然是一个线性回归模型,因为 $Y$ 是参数 $\beta_0$ 和 $\beta_1$ 的线性函数。这是最常用、理论最成熟的一类模型。
* {{{非线性回归}}} (Non-linear Regression): 指模型在参数上是非线性的,例如 $Y = \frac{\beta_1 X}{\beta_2 + X} + \varepsilon$。这类模型的估计通常比线性模型更为复杂。
### 按因变量类型划分
这是区分不同回归模型的一个极其重要的方式,因为它决定了我们应该使用哪种模型。
* 连续型因变量:当因变量 $Y$ 是一个连续变量(如身高、价格、温度)时,通常使用标准的线性回归模型(通过{{{普通最小二乘法}}}估计)。
* 二元离散因变量:当因变量 $Y$ 只能取两个值(通常编码为 0 或 1,如“是/否”、“违约/不违约”)时,线性回归不再适用。此时应使用: * {{{Logistic 回归模型}}} (Logistic Regression):使用 Logistic 函数将线性组合的输出映射到 (0, 1) 区间,解释为事件发生的{{{概率}}}。 * {{{Probit 回归模型}}} (Probit Model):与 Logistic 回归类似,但使用{{{正态分布}}}的累积分布函数进行映射。
* 计数型因变量:当因变量 $Y$ 是非负整数的计数(如专利数量、事故发生次数)时,使用: * {{{泊松回归模型}}} (Poisson Regression):用于对计数数据进行建模的基本模型。 * {{{负二项回归模型}}} (Negative Binomial Regression):当计数数据存在{{{过度离散}}}(方差远大于均值)时,这是对泊松回归的改进。
## 模型估计与评估
### 估计方法
建立回归模型的目的是为了估计未知的参数 $\beta$。最常用的估计方法是:
* {{{普通最小二乘法}}} (Ordinary Least Squares, OLS):这是线性回归模型最经典的估计方法。OLS 的思想是寻找一组参数估计值 $\hat{\beta}$,使得观测值 $Y_i$ 和模型预测值 $\hat{Y_i}$ 之间的离差平方和({{{Sum of Squared Residuals, SSR}}})最小化: $$ \min_{\hat{\beta}} \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2 = \min_{\hat{\beta}} \sum_{i=1}^{n} (Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \dots))^2 $$
* {{{最大似然估计}}} (Maximum Likelihood Estimation, MLE):这是一种更具普适性的估计方法,适用于各类模型,包括 Logistic 回归和泊松回归。MLE 的思想是寻找一组参数估计值,使得在该参数下,观测到当前这组样本数据的概率(即{{{似然函数}}})最大化。
### 模型评估
模型估计完成后,必须评估其拟合优度和有效性。常用的评估指标和检验包括:
* {{{决定系数}}} ($R^2$, R-squared):衡量模型中的自变量能够解释因变量总变异的百分比。取值在 0 和 1 之间,$R^2$ 越高,通常表示模型的解释能力越强。{{{调整后 R 平方}}} (Adjusted R-squared) 在此基础上对模型中自变量的数量进行了惩罚,是比较不同模型时更可靠的指标。
* {{{假设检验}}} (Hypothesis Testing): * t-检验:用于检验单个回归系数是否{{{统计显著}}}。其{{{原假设}}}通常为 $H_0: \beta_j = 0$,即某个自变量对因变量没有影响。如果{{{p值}}}小于预设的{{{显著性水平}}}(如 0.05),则拒绝原假设。 * F-检验:用于检验整个模型的联合显著性,即所有自变量作为一个整体是否对因变量有显著影响。其原假设为 $H_0: \beta_1 = \beta_2 = \ldots = \beta_k = 0$。
* {{{残差分析}}} (Residual Analysis):通过分析模型的残差($e_i = Y_i - \hat{Y_i}$)来检查 OLS 的核心假定是否被违背,例如是否存在{{{异方差性}}} (Heteroscedasticity)、{{{自相关}}} (Autocorrelation) 或{{{多重共线性}}} (Multicollinearity)。
## 应用
回归模型是实证研究的基石,广泛应用于:
* 经济学:分析影响工资、消费、投资和经济增长的因素;估计{{{需求函数}}}和{{{供给函数}}}。 * 金融学:构建资产定价模型(如{{{资本资产定价模型, CAPM}}})、进行风险管理、预测股票收益率和信用评级。 * 市场营销:分析广告投入对销售额的影响,进行客户细分和预测客户流失。 * 社会科学:研究教育、社会政策对社会结果的影响。