ARTICLE
平均绝对偏差
平均绝对偏差(Mean Absolute Deviation, MAD)是统计学中用于衡量一组数据离散程度的基本指标,其定义为各个数据点与算术平均数之差的绝对值的算术平均数。与方差和标准差相比,平均绝对偏差以原始数据的单位直接表示离散程度,不涉及平方运算,因此对异常值的影响更稳健,在直观解释和鲁棒性分析方面具有独特的优势。 定义与计算公式 对于一组观测值 x
平均绝对偏差(Mean Absolute Deviation, MAD)是统计学中用于衡量一组数据离散程度的基本指标,其定义为各个数据点与算术平均数之差的绝对值的算术平均数。与方差和标准差相比,平均绝对偏差以原始数据的单位直接表示离散程度,不涉及平方运算,因此对异常值的影响更稳健,在直观解释和鲁棒性分析方面具有独特的优势。
定义与计算公式
对于一组观测值 ,设其算术平均数为 ,则平均绝对偏差的计算公式为:
其中,绝对值符号 确保每个离差都取非负值。无论离差的方向是正还是负,MAD 只关心偏离的大小,从而直观地反映所有数据点偏离中心位置的平均距离。若数据来自整个总体,分母直接使用 ;若为样本,通常同样使用 而非 ,这与样本方差使用 作为分母的做法有所区别。当数据分布对称且不存在极端值时,MAD 的解释非常直接:例如,若某班级考试成绩的 MAD 为 5 分,则说明平均而言,每位学生的成绩与班级平均分相差约 5 分。
与标准差的核心区别
标准差(Standard Deviation, SD)的计算公式为 ,它对离差进行平方运算后再开方。虽然二者的单位都与原始数据相同,但平方过程赋予了大离差更大的权重,使得标准差对极端值更为敏感。具体而言:
- 直观解释层面:MAD 直接对应于"平均偏离距离"这一日常概念。当向非专业背景的听众解释数据离散程度时,MAD 往往比标准差更容易理解。例如,"平均偏差 5 分"比"标准差为 6.4 分"更具直观性。
- 异常值的影响:由于平方运算,一个极端值可以使标准差成倍增加,而 MAD 受单个极端值的影响则相对有限。例如,数据集 的均值为 30.4,MAD 约为 22.7,而标准差约为 34.9。可见,单个异常值 100 对标准差的拉动效应远大于对 MAD 的影响。这使得 MAD 在存在异常值的数据分析中表现得更加稳健。
- 数学性质:标准差在微积分意义上处处可导,这使其在参数估计、最大似然估计和梯度下降等优化算法中具有便利性。MAD 的绝对值函数在零点不可导,这在一定程度上限制了它在需要求导的算法中的应用,但可以通过次梯度或线性规划等技术加以解决。
样本 MAD 与总体 MAD 的关系
在实际数据分析中,我们往往使用样本来推断总体。样本 MAD 的计算公式与总体 MAD 相同,但需要注意,样本 MAD 是总体 MAD 的有偏估计,其期望值略低于总体的真实 MAD。对于服从正态分布的数据,样本 MAD 的期望值为 ,其中 为总体标准差。因此,若需要将样本 MAD 转换为总体标准差的估计值,可以乘以校正因子 。这一关系在统计质量控制(SPC)中常用于从平均极差或平均偏差估计过程标准差。
多领域的应用场景
平均绝对偏差因其稳健性和直观性,在多个学科领域中得到广泛应用:
金融与投资领域:在投资组合理论中,Konno 和 Yamazaki 于 1991 年提出了基于 MAD 的投资组合优化模型,作为经典均值-方差模型的重要替代方案。由于金融资产收益率序列常呈现尖峰厚尾分布,方差和标准差会因极端收益或损失而高估风险,MAD 则提供了一种更加保守且符合投资者直觉的风险度量方式。MAD 投资组合模型的求解可转化为线性规划问题,计算效率高于需要二次规划的均值-方差模型。
机器学习与数据科学:在回归分析中,平均绝对误差(Mean Absolute Error, MAE)本质上即为预测误差的 MAD,是评价回归模型性能的常用指标。与均方误差(MSE)相比,MAE 对异常预测值更加鲁棒,因此在数据包含离群点时,MAE 是更可靠的评价指标。此外,L1 正则化(Lasso 回归)的核心思想即围绕绝对值偏差展开,通过引入惩罚项实现特征选择。
工业统计质量控制:在制造过程监控中,MAD 可用于估计过程的短期变异水平。与传统控制图使用极差或标准差不同,MAD 在小样本场景下对异常值具有更好的抵抗能力,有助于减少误报警。
气象与环境科学:在评估气候模型或空气质量模型的预报精度时,MAD 被用作衡量模型平均预测偏差的综合指标。由于气象数据往往包含极端天气事件,使用标准差可能高估模型的总体误差,而 MAD 能够更加公平地反映模型在常规条件下的表现。
与其他离散度量的比较
除 MAD 和标准差外,常用的离散度量还包括四分位距(IQR)和极差。极差仅依赖于数据中的最大值和最小值,极不稳定;IQR 仅反映中间 50\% 数据的散布范围,虽对异常值具有极强的抵抗能力,但丢弃了半数数据信息。MAD 在信息利用率和稳健性之间取得了较好的平衡——它充分利用了全部数据点,同时对极端值保持了适度的抗性。因此,平均绝对偏差作为离散度量的重要一员,在探索性数据分析、稳健统计和实际工程应用中始终占据着不可替代的地位。