ARTICLE
回归模型
回归模型 (Regression Model) 回归模型是统计学、计量经济学和机器学习中研究变量关系的核心预测模型。它建立数学方程描述自变量如何影响因变量,使我们既能理解变量关系的性质和强度,也能利用已知自变量预测因变量的取值。"回归"一词源于弗朗西斯·高尔顿研究父代与子代身高关系时的发现——子代身高有"回归"到平均水平的趋势。 基本结构 回归模型的通用形式
回归模型 (Regression Model)
回归模型是统计学、计量经济学和机器学习中研究变量关系的核心预测模型。它建立数学方程描述自变量如何影响因变量,使我们既能理解变量关系的性质和强度,也能利用已知自变量预测因变量的取值。"回归"一词源于弗朗西斯·高尔顿研究父代与子代身高关系时的发现——子代身高有"回归"到平均水平的趋势。
基本结构
回归模型的通用形式为:
其要素包括:
- 因变量 :也称响应变量或被解释变量,是试图预测或理解的核心变量。
- 自变量 :也称解释变量或预测变量,用于解释 的变异。
- 参数 :回归系数,从数据中估计的未知常数。在线性模型 中, 为截距项, 为斜率系数。
- 误差项 :代表模型中自变量未能解释的 的所有变异,来源包括遗漏变量、测量误差和固有随机性。通常假定 。
主要分类
按自变量数量:简单回归仅含一个自变量(如 );多元回归含两个及以上自变量。解释多元回归系数时必须强调控制其他变量不变(ceteris paribus)的前提。
按函数关系:线性回归指模型对参数 线性(变量本身可非线性),理论最成熟、应用最广;非线性回归指模型对参数非线性,估计更为复杂。
按因变量类型:
- 连续因变量:使用标准线性回归(普通最小二乘法估计)。
- 二元离散因变量:使用Logistic 回归或Probit 模型,将线性组合映射到 区间,解释为事件发生概率。
- 计数因变量:使用泊松回归(基础模型)或负二项回归(存在过度离散时使用)。
估计与评估
估计方法:普通最小二乘法(OLS) 是线性回归的经典估计方法,其思想是最小化残差平方和 。最大似然估计(MLE) 更具普适性,适用于 Logistic 回归和泊松回归等模型。
评估指标:
- 决定系数 :衡量自变量解释因变量总变异的百分比。调整后 对自变量数量施加惩罚,是模型比较中更可靠的指标。
- 假设检验:t 检验用于检验单个系数的统计显著性(原假设 );F 检验检验模型整体显著性(原假设 )。
- 残差分析:检查 OLS 假定是否被违背,包括异方差性、自相关和多重共线性。
应用
回归模型是实证研究的基石,广泛用于:经济学中分析工资、消费和经济增长的影响因素,估计需求和供给函数;金融学中构建资本资产定价模型(CAPM)、风险管理和信用评级;市场营销中分析广告效果和客户流失预测;社会科学中评估教育和政策干预的影响。
回归模型的根本价值在于它提供了从观察数据中识别和量化因果关系的系统框架,是连接理论假设与经验证据的方法论桥梁。