ARTICLE

距离

距离 (Distance) 距离 (Distance) 是衡量两个几何对象(如点、向量、概率分布、数据集)之间远近程度的量化指标。在严格的数学意义上,距离是一个定义在集合 X 上的度量函数 (Metric) d: X X R_ 0,满足非负性、同一性(不可区分者的同一性)、对称性和三角不等式四条公理。满足这些公理的二元函数称为一个度量,相应的集合连同该度量构

浏览 0 更新 2026-05-25

距离 (Distance)

距离 (Distance) 是衡量两个几何对象(如点、向量、概率分布、数据集)之间远近程度的量化指标。在严格的数学意义上,距离是一个定义在集合 XX 上的度量函数 (Metric) d:X×XR0d: X \times X \to \mathbb{R}_{\ge 0},满足非负性、同一性(不可区分者的同一性)、对称性和三角不等式四条公理。满足这些公理的二元函数称为一个度量,相应的集合连同该度量构成一个度量空间 (Metric Space)。在数理统计计量经济学机器学习中,距离函数是聚类分析、分类算法、异常检测、假设检验降维等方法的核心基石。

度量公理

正式的度量函数 d(x,y)d(x, y) 必须满足以下四个条件,对任意 x,y,zXx, y, z \in X

  1. 非负性 (Non-negativity)d(x,y)0d(x, y) \ge 0
  2. 不可区分者的同一性 (Identity of Indiscernibles)d(x,y)=0    x=yd(x, y) = 0 \iff x = y
  3. 对称性 (Symmetry)d(x,y)=d(y,x)d(x, y) = d(y, x)
  4. 三角不等式 (Triangle Inequality)d(x,y)d(x,z)+d(z,y)d(x, y) \le d(x, z) + d(z, y)

若函数仅满足前三条而不满足三角不等式,则称为半度量 (Semimetric);若允许不同点之间距离为零(仅满足 x=y    d(x,y)=0x = y \implies d(x, y) = 0),则称为伪度量 (Pseudometric)。

常见距离度量

闵可夫斯基距离 (Minkowski Distance)

闵可夫斯基距离是欧几里得空间上最通用的一族距离函数。对于 Rn\mathbb{R}^n 中的两个向量 x=(x1,,xn)x = (x_1, \ldots, x_n)y=(y1,,yn)y = (y_1, \ldots, y_n),闵可夫斯基距离定义为:

dp(x,y)=(i=1nxiyip)1/p,p1d_p(x, y) = \left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{1/p}, \quad p \ge 1

参数 pp 的不同取值产生以下特例:

  • p=1p = 1曼哈顿距离 (Manhattan Distance),又称城市街区距离、L1L_1 范数。即各坐标差的绝对值之和:d1(x,y)=i=1nxiyid_1(x, y) = \sum_{i=1}^{n} |x_i - y_i|。该距离对异常值不敏感,常用于L1正则化和高维稀疏数据。
  • p=2p = 2欧几里得距离 (Euclidean Distance),即 L2L_2 范数,是最直观的距离概念——空间中两点间的直线距离:d2(x,y)=i=1n(xiyi)2d_2(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}。它是主成分分析K-均值聚类最小二乘法的基础。
  • pp \to \infty切比雪夫距离 (Chebyshev Distance),即 LL_\infty 范数:d(x,y)=maxixiyid_\infty(x, y) = \max_i |x_i - y_i|。在仓库物流、棋盘游戏中,它对应国王(King)每一步所能到达的位置。

闵可夫斯基距离的一个关键局限性是,各维度的尺度不一致时距离会被量纲大的维度主导,因此在应用前通常需进行标准化或归一化。

马氏距离 (Mahalanobis Distance)

马氏距离由印度统计学家马哈拉诺比斯 (P. C. Mahalanobis) 于 1936 年提出,解决了闵可夫斯基距离对变量量纲和相关性的敏感问题。对于均值向量为 μ\mu、协方差矩阵为 Σ\Sigma 的多元分布,点 xx 到分布的马氏距离为:

dM(x)=(xμ)TΣ1(xμ)d_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x - \mu)}

两点 x,yx, y 之间的马氏距离则为 dM(x,y)=(xy)TΣ1(xy)d_M(x, y) = \sqrt{(x - y)^T \Sigma^{-1} (x - y)}。马氏距离的核心机制在于通过协方差矩阵的逆 Σ1\Sigma^{-1} 进行白化变换 (Whitening),消除变量间的相关性和量纲影响,使各方向"拉平"为等方差的独立维度。当 Σ=I\Sigma = I(单位矩阵)时,马氏距离退化为欧几里得距离。

马氏距离在异常检测、判别分析和Hotelling T2T^2 检验中广泛应用。例如,在一元情形下,马氏距离即标准分数的绝对值:dM(x)=(xμ)/σd_M(x) = |(x - \mu)/\sigma|,直接度量观测值偏离均值多少个标准差。

余弦距离 (Cosine Distance)

余弦距离衡量两个向量方向上的差异,而非绝对大小。对于非零向量 x,yRnx, y \in \mathbb{R}^n

dcos(x,y)=1xyx2y2=1cosθd_{\cos}(x, y) = 1 - \frac{x \cdot y}{\|x\|_2 \|y\|_2} = 1 - \cos \theta

其中 θ\theta 为两向量夹角。余弦距离取值范围为 [0,2][0, 2]dcos=0d_{\cos} = 0 时方向相同,dcos=1d_{\cos} = 1 时正交,dcos=2d_{\cos} = 2 时方向相反。在文本挖掘中(如TF-IDF向量表示),文档之间的相似性常用余弦相似度衡量,因为它只关注词频的相对比例而非文档的绝对长度。

其他重要距离

  • 汉明距离 (Hamming Distance):用于等长字符串,统计对应位置字符不同的个数,在信息论和纠错编码中有重要应用。
  • 编辑距离 (Edit Distance / Levenshtein Distance):将一个字符串转换为另一个字符串所需的最少单字符编辑(插入、删除、替换)操作次数,广泛用于拼写检查和自然语言处理中的字符串匹配。
  • 杰卡德距离 (Jaccard Distance):衡量有限集合之间不相似度:dJ(A,B)=1ABABd_J(A, B) = 1 - \frac{|A \cap B|}{|A \cup B|},常用于集合相似性和推荐系统中项目共现分析。
  • 堪培拉距离 (Canberra Distance)dC(x,y)=i=1nxiyixi+yid_C(x, y) = \sum_{i=1}^{n} \frac{|x_i - y_i|}{|x_i| + |y_i|},是曼哈顿距离的加权版本,对接近于零的坐标变化更敏感,在生态学数据比较中有独特优势。
  • 海林格距离 (Hellinger Distance):用于衡量两个概率分布之间的差异:H(P,Q)=12i(piqi)2H(P, Q) = \frac{1}{\sqrt{2}} \sqrt{\sum_i (\sqrt{p_i} - \sqrt{q_i})^2},在贝叶斯统计信息几何中具有理论基础。
  • KL散度 (Kullback-Leibler Divergence):虽然 KL 散度不满足对称性和三角不等式(非严格度量),但它是衡量两个概率分布差异的最重要工具之一:DKL(PQ)=ipilogpiqiD_{KL}(P \| Q) = \sum_i p_i \log \frac{p_i}{q_i}。在最大似然估计变分推断中扮演核心角色,可与费舍尔信息建立联系。

距离在经济学与统计学中的应用

计量经济学中,距离概念贯穿多个领域:

  1. 聚类分析K-均值聚类使用欧氏距离将观测值划分为 kk 个组;层次聚类可采用多种距离度量(欧氏、曼哈顿、马氏等)结合不同的链接准则(单链接、全链接、平均链接)构建系统树图。在经济研究中,常使用聚类方法对国家按经济发展指标进行分组,或对消费者进行市场细分。
  2. 匹配估计量倾向得分匹配 (Propensity Score Matching) 中,马氏距离常被用于度量处理组和控制组个体之间协变量的整体差异,以寻找最相似的反事实对照,估计处理效应。距离度量(通常为欧氏距离)也直接用于最近邻匹配,在因果推断中从控制组中为每个处理个体挑选最接近的对照。
  3. 空间计量经济学空间自回归模型空间误差模型依赖于空间权重矩阵的构建,该矩阵通常基于地理距离(如各区域中心之间的欧氏距离的倒数)或经济距离(如地区间 GDP 差距的绝对值倒数)。距离的衰减函数形式(如反距离、指数衰减)对空间溢出效应的估计结果具有直接影响。
  4. 统计检验Kolmogorov-Smirnov 检验使用两个经验分布函数的最大垂直距离作为检验统计量,判断样本是否来自特定分布;安德森-达林检验则基于加权平方距离,在尾部给予更高权重。
  5. 优化与数值计算:在梯度下降法中,参数更新的"步长"本质上是参数空间中当前位置与目标位置之间的距离;收敛性判断也通常基于相邻迭代点之间的欧氏距离小于某个阈值。

距离的选取原则

距离函数的选择对分析结果有深远影响,不存在普遍最优的度量。关键在于根据数据特征和分析目标做出合理选择:

  • 若各维度尺度差异大且相关性强,优先考虑马氏距离;
  • 若数据稀疏且高维,曼哈顿距离往往优于欧氏距离,因后者在高维空间中会产生"距离集中"现象;
  • 若关注向量的方向(如文本分类、推荐系统),余弦距离更为自然;
  • 若涉及概率分布或统计推断,海林格距离和 KL 散度等概率度量应作为首选。

在实际应用中,强烈建议在度量之前对数据进行适当的预处理(标准化、去相关化、降维),并尝试多种距离函数验证结论的稳定性。距离的选择不仅是技术决策,更是对所研究问题几何结构的实质性建模假设。