ARTICLE
马哈拉诺比斯距离
马哈拉诺比斯距离 (Mahalanobis Distance) 马哈拉诺比斯距离 (Mahalanobis Distance) 是由印度统计学家马哈拉诺比斯 (P. C. Mahalanobis) 于1936年提出的一种多变量距离度量。与欧氏距离不同,它通过数据的协方差矩阵对各个维度进行加权,从而消除变量之间量纲差异和相关性的影响。若将欧氏距离视为在球形坐标
马哈拉诺比斯距离 (Mahalanobis Distance)
马哈拉诺比斯距离 (Mahalanobis Distance) 是由印度统计学家马哈拉诺比斯 (P. C. Mahalanobis) 于1936年提出的一种多变量距离度量。与欧氏距离不同,它通过数据的协方差矩阵对各个维度进行加权,从而消除变量之间量纲差异和相关性的影响。若将欧氏距离视为在球形坐标系中测量,马哈拉诺比斯距离则是在经过数据分布扭曲后的椭球坐标系中测量,这使得它的测量结果更能反映数据在真实分布中的相对位置。
定义与数学公式
设 为一个 维观测向量, 为总体均值向量, 为总体的 协方差矩阵。马哈拉诺比斯距离定义为:
其平方形式更为常用:
在实际应用中, 和 通常以样本均值 和样本协方差矩阵 估计:
从代数结构上看,该距离等价于先将数据通过 进行白化变换,再计算变换后数据的欧氏距离。令 ,则 。
与欧氏距离的比较
欧氏距离定义为 ,它隐含假设所有维度相互独立且具有相同尺度。当各变量方差不同或存在相关性时,欧氏距离会失真。例如,考虑身高(厘米)和体重(千克)的二元数据:由于身高的方差远大于体重,欧氏距离将主要由身高差异主导。马哈拉诺比斯距离通过除以各维度的方差并调整变量间的协方差结构,解决了这一问题。在二维情形下,马哈拉诺比斯距离的等距线为椭圆(其形状和方向由协方差矩阵的特征值和特征向量决定),而非欧氏距离的圆形。
统计性质
若 来自多元正态分布 ,则 服从自由度为 的卡方分布 。这一性质使其成为构建多变量置信区域和进行离群值检验的基础工具:给定显著性水平 ,若 ,则判定该观测为离群值。
此外,马哈拉诺比斯距离与Hotelling's T-squared统计量直接关联:,用于检验均值向量是否等于某一假设值。
主要应用场景
- 离群值检测:在多变量数据中,观测点可能在每个单变量维度上均不异常,但在联合分布中却是离群值。马哈拉诺比斯距离基于整个协方差结构评估每个点的综合偏离程度,已在工业质量控制、金融欺诈检测和医学诊断中广泛应用。
- 分类与判别分析:在线性判别分析 (LDA) 和二次判别分析 (QDA) 中,马哈拉诺比斯距离用于衡量新样本到各类别重心的距离,进而将其分配到最近的类别。当各类具有相同协方差矩阵时,分类规则等价于选择马哈拉诺比斯距离最小的类别。
- 倾向得分匹配:在因果推断和政策评估中,利用马哈拉诺比斯距离在多维协变量空间中寻找匹配的控制单元,以降低选择偏误。
- 聚类分析:作为K均值聚类等算法的距离度量,特别适用于协方差结构非球形的簇。
局限性
马哈拉诺比斯距离依赖协方差矩阵的逆,当变量高度共线性或样本量 小于变量数 时,样本协方差矩阵 变得奇异或近似奇异,导致无法求逆或估计不稳定。在高维数据场景中,通常需要借助正则化协方差矩阵(如岭回归估计或图形Lasso)或使用伪逆来缓解此问题。此外,马哈拉诺比斯距离对偏离多元正态性的数据可能不可靠,此时可考虑使用鲁棒马哈拉诺比斯距离(基于MCD估计量)作为替代。
马哈拉诺比斯距离的核心贡献在于将"距离"概念从绝对的欧氏空间推广到了数据驱动的概率空间,是现代多变量分析和统计学习中最基础的工具之一。