ARTICLE

稳健回归

定义 稳健回归(Robust Regression)是一类在数据存在异常值、杠杆点或误差分布偏离正态假设时,仍能保持估计量良好性质的回归分析方法。传统的普通最小二乘法(OLS)在满足高斯—马尔可夫假定时具有最优线性无偏估计的特性,但其对异常值极为敏感——一个极端的数据点就足以显著扭曲回归系数的估计结果。稳健回归通过修改估计准则函数、调整数据权重或采用基于秩的

浏览 5 更新 2026-07-17

定义

稳健回归(Robust Regression)是一类在数据存在异常值、杠杆点或误差分布偏离正态假设时,仍能保持估计量良好性质的回归分析方法。传统的普通最小二乘法(OLS)在满足高斯—马尔可夫假定时具有最优线性无偏估计的特性,但其对异常值极为敏感——一个极端的数据点就足以显著扭曲回归系数的估计结果。稳健回归通过修改估计准则函数、调整数据权重或采用基于秩的方法,降低异常观测对参数估计的影响,从而获得比OLS更可靠的推断结论。稳健回归的思想最早可追溯至G. E. P. Box与J. W. Tukey等统计学家对估计稳健性的系统性研究,而P. J. Huber在1964年对M估计的奠基性贡献,则标志着稳健回归理论与方法体系的正式诞生。

动机与问题背景

OLS估计的敏感性根源于其目标函数——残差平方和——对大幅度残差赋予二次型权重。当某观测值因测量误差、数据录入失误或真实但极端的经济活动产生巨大残差时,该点在平方意义下对目标函数施加了不成比例的影响。一个异常值即可拉动回归平面朝自己的方向强烈倾斜,导致截距与斜率估计全面偏移。更严重的是,如果该异常值同时具有高杠杆值——即在自变量空间中处于极端位置——其破坏力会被进一步放大,这一现象被称为"遮蔽效应":多个异常值可能相互掩盖,使得常规残差诊断方法失效。在经济学、金融学、生物统计和工业工程等依赖回归分析进行决策的领域,这种脆弱性直接威胁到推断的可靠性和政策的科学性。稳健回归正是在这一背景下应运而生,为实证分析提供了一道抵御数据污染的防线。

M估计

M估计(Maximum-likelihood-type Estimation)是稳健回归中使用最广泛的一类方法,其核心思想是用增长较慢的凸函数替代平方函数作为残差的目标函数。设样本为(xix_i, yiy_i),回归系数为β,M估计通过最小化∑ρ(rir_i)获得参数估计,其中rir_i = yiy_i - xix_i^Tβ为第i个残差,ρ是定义在实数上的对称凸函数。Huber提出的ρ函数在残差绝对值小于某阈值k时使用平方损失,超过阈值后切换为线性损失,从而在正常数据区域保留OLS的效率,在异常区域限制单个观测的影响力。Tukey提出的双平方(bisquare)函数则更为激进,其ρ函数在阈值之外将残差贡献降为零,因此能够完全排除极端异常值的影响。M估计通常通过迭代加权最小二乘法实现:每步迭代根据当前残差计算权重wiw_i = ψ(rir_i)/rir_i,其中ψ = ρ'为影响函数,然后执行加权OLS更新系数。M估计的渐近正态性和一致性在正则条件下可以得到保证,但其突破点(即使估计崩溃所需的污染比例)较低,在处理高杠杆点时仍显不足。

高突破点的稳健方法

为解决M估计在自变量空间异常方面的脆弱性,统计学家发展了一系列具有高突破点的稳健估计方法。最小中位数平方(Least Median of Squares, LMS)估计将目标函数从残差平方和替换为残差平方的中位数,其突破点可达50\%,意味着即使近一半的数据被污染,估计结果仍保持在合理范围内。但LMS的收敛速度较慢(n^{-1/3}量级),且其目标函数非光滑,计算复杂度较高。最小截尾平方(Least Trimmed Squares, LTS)估计通过剔除部分残差最大的观测值,仅对剩余残差较小的子样本执行平方和最小化,兼顾了较高的突破点与相对较好的统计效率。S估计(Scale Estimation)利用残差尺度的M估计作为目标函数,在保持高突破点的同时改善了收敛速度。MM估计则综合了M估计与S估计的优势:首先通过S估计获得高突破点的初始残差尺度,再以此尺度进行M估计迭代,使最终估计量同时具备高突破点(通常可达50\%)和高渐近效率(相对于OLS可超过95\%)。这一组合策略使MM估计成为当前实证研究中最受推荐的稳健回归方法之一。

分位数回归

分位数回归(Quantile Regression)是稳健回归的另一重要分支,由Roger Koenker和Gilbert Bassett于1978年系统提出。与OLS估计条件均值不同,分位数回归估计条件分位数函数,其目标函数为加权绝对残差和,损失函数呈现非对称的V形。当估计中位数(第50百分位数)时,分位数回归退化为最小绝对偏差(Least Absolute Deviation, LAD)估计,对所有残差赋予相等的线性权重,因而变量尺度对异常值具有天然抵抗力。分位数回归的独特优势在于:第一,它对误差分布的尾部形态不敏感,在重尾分布下估计效率远高于OLS;第二,它能够刻画协变量对响应变量不同分位点的差异化影响,例如教育回报率在收入分布低端与高端可能截然不同;第三,其估计量在相当一般的条件下具有一致性和渐近正态性,且推断可通过自助法或秩检验实现。分位数回归目前在劳动经济学、教育经济学、金融风险管理和环境经济学等领域得到了广泛应用。

与其他方法的比较

稳健回归与若干相关方法既有联系又有区别。与OLS相比,稳健回归在数据清洁时效率略低,但在数据污染时优势显著,这一权衡被称为"稳健性与效率的置换"。与正则化回归(如岭回归和LASSO)相比,后者主要处理高维问题中的多重共线性与变量选择,其收缩机制亦可抑制异常值影响,但出发点与稳健回归不同。与贝叶斯回归相比,贝叶斯方法可通过厚尾先验分布(如t分布)获得类似的稳健性,但其推断依赖于先验设定和马尔可夫链蒙特卡洛计算。与数据清洗方法(如删除异常值或Winsorization)相比,稳健回归避免了人工判断的主观性与反复试错的随意性,为分析结果提供了透明且可复现的统计框架。在实践中,往往会先使用稳健回归识别异常观测,再结合领域知识判断其处理方式,使两种思路形成互补。

局限与挑战

稳健回归并非万能,在应用过程中面临若干挑战。第一,稳健估计通常需要选择调谐参数(如Huber阈值k或Tukey双平方函数中的截断常数c),不同参数选择可能导致截然不同的估计结果,缺乏选择准则的统一标准。第二,高突破点方法(如LMS和LTS)的计算成本远高于OLS,在大规模数据集和高维情景下可能面临计算瓶颈。第三,稳健回归的标准误估计和假设检验相对复杂,特别是鲁棒协方差矩阵的估计在小样本条件下表现不稳定。第四,当异常值携带关于总体真实结构的重要信息时——例如金融市场中的极端波动反映了真实的尾部风险——简单消除其影响可能导致实质性的信息损失。第五,稳健回归仍主要关注连续响应变量的线性模型框架,对广义线性模型、非线性模型和分层模型的稳健扩展虽然在理论上有进展,但软件实现和方法普及度仍有待提高。

应用与发展趋势

稳健回归在当代数据分析中保持着重要地位。在金融经济学中,资产定价模型的估计极易受到极端收益率观测的干扰,稳健回归已被广泛用于估计贝塔系数和检验市场异象。在计量经济学中,稳健回归常作为基准分析之外的补充检验,用以验证核心结论是否受少数观测值驱动。在生物统计与流行病学中,稳健回归被用于处理实验室测定误差和患者群体的异质性。近年来,机器学习与稳健统计的交叉融合催生了多个活跃的研究方向:稳健随机梯度下降算法通过修改损失函数使深度学习模型对抗标签噪声;稳健主成分分析和稳健聚类方法将稳健思想扩展到无监督学习领域;高维稳健回归则将L1惩罚项与M估计结合,在变量选择与异常值抵抗之间寻找平衡。这些进展表明,稳健回归的核心思想——在不确定的数据环境中保持估计量的可靠性——正在向人工智能和大数据分析的各个角落渗透,其方法论价值与实践意义将随着数据复杂度的提升而持续增长。