ARTICLE

马哈拉诺比斯距离

马哈拉诺比斯距离 (Mahalanobis Distance) 马哈拉诺比斯距离 (Mahalanobis Distance) 是由印度统计学家马哈拉诺比斯 (P. C. Mahalanobis) 于1936年提出的一种多变量距离度量。与欧氏距离不同，它通过数据的协方差矩阵对各个维度进行加权，从而消除变量之间量纲差异和相关性的影响。若将欧氏距离视为在球形坐标

浏览 0 更新 2025-12-02

马哈拉诺比斯距离 (Mahalanobis Distance)

马哈拉诺比斯距离 (Mahalanobis Distance) 是由印度统计学家马哈拉诺比斯 (P. C. Mahalanobis) 于1936年提出的一种多变量距离度量。与欧氏距离不同，它通过数据的协方差矩阵对各个维度进行加权，从而消除变量之间量纲差异和相关性的影响。若将欧氏距离视为在球形坐标系中测量，马哈拉诺比斯距离则是在经过数据分布扭曲后的椭球坐标系中测量，这使得它的测量结果更能反映数据在真实分布中的相对位置。

定义与数学公式

设 $\mathbf{x} = (x_1, x_2, \ldots, x_p) ^{\mathsf{T}}$ 为一个 $p$ 维观测向量， $\boldsymbol{\mu} = (\mu_1, \ldots, \mu_p)^{\mathsf{T}}$ 为总体均值向量， $\boldsymbol{\Sigma}$ 为总体的 $p \times p$ 协方差矩阵。马哈拉诺比斯距离定义为：

D_M(\mathbf{x}) = \sqrt{(\mathbf{x} - \boldsymbol{\mu})^{\mathsf{T}} \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})}

其平方形式更为常用：

D_M^2(\mathbf{x}) = (\mathbf{x} - \boldsymbol{\mu})^{\mathsf{T}} \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})

在实际应用中， $\boldsymbol{\mu}$ 和 $\boldsymbol{\Sigma}$ 通常以样本均值 $\bar{\mathbf{x}}$ 和样本协方差矩阵 $\mathbf{S}$ 估计：

D_M^2(\mathbf{x}) = (\mathbf{x} - \bar{\mathbf{x}})^{\mathsf{T}} \mathbf{S}^{-1} (\mathbf{x} - \bar{\mathbf{x}})

从代数结构上看，该距离等价于先将数据通过 $\boldsymbol{\Sigma}^{-1/2}$ 进行白化变换，再计算变换后数据的欧氏距离。令 $\mathbf{y} = \boldsymbol{\Sigma}^{-1/2}(\mathbf{x} - \boldsymbol{\mu})$ ，则 $D_M^2 = \mathbf{y}^{\mathsf{T}}\mathbf{y} = \|\mathbf{y}\|^2$ 。

与欧氏距离的比较

欧氏距离定义为 $D_E = \sqrt{(\mathbf{x} - \boldsymbol{\mu})^{\mathsf{T}}(\mathbf{x} - \boldsymbol{\mu})}$ ，它隐含假设所有维度相互独立且具有相同尺度。当各变量方差不同或存在相关性时，欧氏距离会失真。例如，考虑身高（厘米）和体重（千克）的二元数据：由于身高的方差远大于体重，欧氏距离将主要由身高差异主导。马哈拉诺比斯距离通过除以各维度的方差并调整变量间的协方差结构，解决了这一问题。在二维情形下，马哈拉诺比斯距离的等距线为椭圆（其形状和方向由协方差矩阵的特征值和特征向量决定），而非欧氏距离的圆形。

统计性质

若 $\mathbf{x}$ 来自多元正态分布 $N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ ，则 $D_M^2(\mathbf{x})$ 服从自由度为 $p$ 的卡方分布 $\chi^2(p)$ 。这一性质使其成为构建多变量置信区域和进行离群值检验的基础工具：给定显著性水平 $\alpha$ ，若 $D_M^2 > \chi^2_{1-\alpha}(p)$ ，则判定该观测为离群值。

此外，马哈拉诺比斯距离与Hotelling's T-squared统计量直接关联： $T^2 = \frac{n}{n+1} D_M^2(\bar{\mathbf{x}})$ ，用于检验均值向量是否等于某一假设值。

主要应用场景

离群值检测：在多变量数据中，观测点可能在每个单变量维度上均不异常，但在联合分布中却是离群值。马哈拉诺比斯距离基于整个协方差结构评估每个点的综合偏离程度，已在工业质量控制、金融欺诈检测和医学诊断中广泛应用。
分类与判别分析：在线性判别分析 (LDA) 和二次判别分析 (QDA) 中，马哈拉诺比斯距离用于衡量新样本到各类别重心的距离，进而将其分配到最近的类别。当各类具有相同协方差矩阵时，分类规则等价于选择马哈拉诺比斯距离最小的类别。
倾向得分匹配：在因果推断和政策评估中，利用马哈拉诺比斯距离在多维协变量空间中寻找匹配的控制单元，以降低选择偏误。
聚类分析：作为K均值聚类等算法的距离度量，特别适用于协方差结构非球形的簇。

局限性

马哈拉诺比斯距离依赖协方差矩阵的逆，当变量高度共线性或样本量 $n$ 小于变量数 $p$ 时，样本协方差矩阵 $\mathbf{S}$ 变得奇异或近似奇异，导致无法求逆或估计不稳定。在高维数据场景中，通常需要借助正则化协方差矩阵（如岭回归估计或图形Lasso）或使用伪逆来缓解此问题。此外，马哈拉诺比斯距离对偏离多元正态性的数据可能不可靠，此时可考虑使用鲁棒马哈拉诺比斯距离（基于MCD估计量）作为替代。

马哈拉诺比斯距离的核心贡献在于将"距离"概念从绝对的欧氏空间推广到了数据驱动的概率空间，是现代多变量分析和统计学习中最基础的工具之一。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。