ARTICLE
线性回归模型
线性回归模型 (Linear Regression Model) 线性回归模型是一种基本的、也是应用最广泛的统计学和计量经济学分析工具,用于研究一个或多个自变量(Independent Variables)与一个因变量(Dependent Variable)之间的线性关系。其核心目标是建立一个数学方程,用以描述和预测因变量如何随自变量的变化而变化。该模型在经
线性回归模型 (Linear Regression Model)
线性回归模型是一种基本的、也是应用最广泛的统计学和计量经济学分析工具,用于研究一个或多个自变量(Independent Variables)与一个因变量(Dependent Variable)之间的线性关系。其核心目标是建立一个数学方程,用以描述和预测因变量如何随自变量的变化而变化。该模型在经济学、金融学、社会科学和机器学习等领域都有着至关重要的作用。
线性回归分析试图回答以下类型的问题:
- 两个或多个变量之间是否存在显著关系?
- 关系的强度有多大?
- 我们能否利用一个或多个变量的值来预测另一个变量的值?
需要特别指出的是,线性回归模型本身揭示的是变量间的相关性,而非必然的因果关系。建立因果推断需要更严格的理论假设和模型设定。
模型构成与数学表达
一个线性回归模型主要由四个部分构成:因变量、自变量、参数和误差项。
- 因变量 (Dependent Variable):也称为被解释变量或响应变量,通常用 表示。这是我们试图解释或预测的变量。
- 自变量 (Independent Variable(s)):也称为解释变量、预测变量或回归元,通常用 表示。这些是我们用来解释或预测因变量 的变量。
- 参数 (Parameters):也称为系数 (Coefficients),通常用希腊字母 表示。这些参数是模型的未知常数,代表了自变量对因变量影响的大小和方向。我们的目标就是估计这些参数。
- 误差项 (Error Term):也称为扰动项,通常用 (epsilon) 表示。它代表了除模型中包含的自变量外,所有其他未被观测到的、影响因变量 的因素的总和,也包括测量误差和纯粹的随机性。
简单线性回归 (Simple Linear Regression)
当模型中只有一个自变量时,称为简单线性回归。其总体模型(Population Regression Function)表达式为:
其中:
- 是第 个观测值的因变量。
- 是第 个观测值的自变量。
- 是截距 (Intercept),表示当自变量 为0时,因变量 的期望值。
- 是斜率 (Slope),表示当自变量 变化一个单位时,因变量 的期望变化量。这是衡量 对 影响的核心参数。
- 是与第 个观测值相关联的误差项。
多元线性回归 (Multiple Linear Regression)
当模型中包含两个或更多自变量时,称为多元线性回归。其总体模型表达式为:
其中:
- 是自变量的数量。
- (对于 ) 是第 个自变量的系数。它表示在保持其他所有自变量不变(ceteris paribus)的情况下,该自变量 变化一个单位,因变量 的期望变化量。
- 在更高阶的表述中,多元线性回归常使用矩阵形式表示:。
普通最小二乘法 (Ordinary Least Squares, OLS)
在获得了样本数据后,我们需要一个方法来估计模型中的未知参数 。最常用的估计方法是普通最小二乘法 (Ordinary Least Squares, OLS)。
OLS的核心思想是,选择一组参数估计值(用 表示),使得观测值 与模型预测值 之间的离差平方和(Sum of Squared Residuals, SSR)最小化。
预测值 由回归方程给出:
残差 (Residual) 定义为观测值与预测值之差:
OLS的目标就是选择 使得残差平方和最小:
通过求解这个最小化问题(通常使用微积分求导),我们可以得到参数的估计值。
经典线性模型的基本假设
为了保证OLS估计量具有良好的统计性质(如无偏、有效),模型需要满足一系列假设,这些假设合称为高斯-马尔可夫假设 (Gauss-Markov Assumptions)。
- 参数线性 (Linearity in Parameters):模型在参数上是线性的。
- 随机抽样 (Random Sampling):样本数据是从总体中随机抽取的。
- 不存在完全多重共线性 (No Perfect Multicollinearity):在多元回归中,任何一个自变量都不能是其他自变量的完美线性组合。
- 误差项的零条件均值 (Zero Conditional Mean):。这是最关键的假设,它意味着误差项的期望值与所有自变量的值无关。满足此条件时,自变量被称为外生性 (Exogenous)。若此假设不满足,则可能存在内生性 (Endogeneity)问题,导致OLS估计量有偏。
- 同方差性 (Homoscedasticity):给定任意自变量的值,误差项的方差都是一个常数 。即 。如果方差随自变量变化而变化,则称为异方差性 (Heteroscedasticity)。
如果以上五个假设全部成立,根据高斯-马尔可夫定理,OLS估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。这意味着在所有线性的、无偏的估计量中,OLS估计量具有最小的方差。
- 误差项的正态性 (Normality of Error Terms):误差项独立于自变量,并且服从均值为0、方差为 的正态分布。这个假设对于证明BLUE不是必需的,但它对于在小样本下进行精确的假设检验(如t检验和F检验)非常重要。对于大样本,根据中心极限定理,通常可以放宽此假设。
模型评估与拟合优度
模型估计完成后,我们需要评估其解释能力和统计显著性。
- 判定系数 (, R-squared):也称拟合优度,衡量了模型中的自变量能够解释因变量总变异的百分比。 的取值范围在0和1之间,越接近1表示模型的解释能力越强。其计算公式为:
其中,TSS是总平方和,ESS是解释平方和,SSR是残差平方和。
- 调整后R方 (Adjusted ):在多元回归中,向模型中增加任何自变量(即使是无关的)都会使 上升或不变。调整后对模型中自变量的数量施加了“惩罚”,是一个更公允的跨模型比较指标。
- 回归标准误 (Standard Error of the Regression, SER):衡量了样本点在回归线周围的平均离散程度,是模型预测误差大小的典型度量。
假设检验与统计推断
我们不仅关心参数的点估计值,更关心这些估计值是否在统计上显著,以及它们的精确度。