ARTICLE
距离
距离 (Distance) 距离 (Distance) 是衡量两个几何对象(如点、向量、概率分布、数据集)之间远近程度的量化指标。在严格的数学意义上,距离是一个定义在集合 X 上的度量函数 (Metric) d: X X R_ 0,满足非负性、同一性(不可区分者的同一性)、对称性和三角不等式四条公理。满足这些公理的二元函数称为一个度量,相应的集合连同该度量构
距离 (Distance)
距离 (Distance) 是衡量两个几何对象(如点、向量、概率分布、数据集)之间远近程度的量化指标。在严格的数学意义上,距离是一个定义在集合 上的度量函数 (Metric) ,满足非负性、同一性(不可区分者的同一性)、对称性和三角不等式四条公理。满足这些公理的二元函数称为一个度量,相应的集合连同该度量构成一个度量空间 (Metric Space)。在数理统计、计量经济学和机器学习中,距离函数是聚类分析、分类算法、异常检测、假设检验和降维等方法的核心基石。
度量公理
正式的度量函数 必须满足以下四个条件,对任意 :
- 非负性 (Non-negativity):
- 不可区分者的同一性 (Identity of Indiscernibles):
- 对称性 (Symmetry):
- 三角不等式 (Triangle Inequality):
若函数仅满足前三条而不满足三角不等式,则称为半度量 (Semimetric);若允许不同点之间距离为零(仅满足 ),则称为伪度量 (Pseudometric)。
常见距离度量
闵可夫斯基距离 (Minkowski Distance)
闵可夫斯基距离是欧几里得空间上最通用的一族距离函数。对于 中的两个向量 和 ,闵可夫斯基距离定义为:
参数 的不同取值产生以下特例:
- :曼哈顿距离 (Manhattan Distance),又称城市街区距离、 范数。即各坐标差的绝对值之和:。该距离对异常值不敏感,常用于L1正则化和高维稀疏数据。
- :欧几里得距离 (Euclidean Distance),即 范数,是最直观的距离概念——空间中两点间的直线距离:。它是主成分分析、K-均值聚类和最小二乘法的基础。
- :切比雪夫距离 (Chebyshev Distance),即 范数:。在仓库物流、棋盘游戏中,它对应国王(King)每一步所能到达的位置。
闵可夫斯基距离的一个关键局限性是,各维度的尺度不一致时距离会被量纲大的维度主导,因此在应用前通常需进行标准化或归一化。
马氏距离 (Mahalanobis Distance)
马氏距离由印度统计学家马哈拉诺比斯 (P. C. Mahalanobis) 于 1936 年提出,解决了闵可夫斯基距离对变量量纲和相关性的敏感问题。对于均值向量为 、协方差矩阵为 的多元分布,点 到分布的马氏距离为:
两点 之间的马氏距离则为 。马氏距离的核心机制在于通过协方差矩阵的逆 进行白化变换 (Whitening),消除变量间的相关性和量纲影响,使各方向"拉平"为等方差的独立维度。当 (单位矩阵)时,马氏距离退化为欧几里得距离。
马氏距离在异常检测、判别分析和Hotelling 检验中广泛应用。例如,在一元情形下,马氏距离即标准分数的绝对值:,直接度量观测值偏离均值多少个标准差。
余弦距离 (Cosine Distance)
余弦距离衡量两个向量方向上的差异,而非绝对大小。对于非零向量 :
其中 为两向量夹角。余弦距离取值范围为 : 时方向相同, 时正交, 时方向相反。在文本挖掘中(如TF-IDF向量表示),文档之间的相似性常用余弦相似度衡量,因为它只关注词频的相对比例而非文档的绝对长度。
其他重要距离
- 汉明距离 (Hamming Distance):用于等长字符串,统计对应位置字符不同的个数,在信息论和纠错编码中有重要应用。
- 编辑距离 (Edit Distance / Levenshtein Distance):将一个字符串转换为另一个字符串所需的最少单字符编辑(插入、删除、替换)操作次数,广泛用于拼写检查和自然语言处理中的字符串匹配。
- 杰卡德距离 (Jaccard Distance):衡量有限集合之间不相似度:,常用于集合相似性和推荐系统中项目共现分析。
- 堪培拉距离 (Canberra Distance):,是曼哈顿距离的加权版本,对接近于零的坐标变化更敏感,在生态学数据比较中有独特优势。
- 海林格距离 (Hellinger Distance):用于衡量两个概率分布之间的差异:,在贝叶斯统计和信息几何中具有理论基础。
- KL散度 (Kullback-Leibler Divergence):虽然 KL 散度不满足对称性和三角不等式(非严格度量),但它是衡量两个概率分布差异的最重要工具之一:。在最大似然估计和变分推断中扮演核心角色,可与费舍尔信息建立联系。
距离在经济学与统计学中的应用
在计量经济学中,距离概念贯穿多个领域:
- 聚类分析:K-均值聚类使用欧氏距离将观测值划分为 个组;层次聚类可采用多种距离度量(欧氏、曼哈顿、马氏等)结合不同的链接准则(单链接、全链接、平均链接)构建系统树图。在经济研究中,常使用聚类方法对国家按经济发展指标进行分组,或对消费者进行市场细分。
- 匹配估计量:倾向得分匹配 (Propensity Score Matching) 中,马氏距离常被用于度量处理组和控制组个体之间协变量的整体差异,以寻找最相似的反事实对照,估计处理效应。距离度量(通常为欧氏距离)也直接用于最近邻匹配,在因果推断中从控制组中为每个处理个体挑选最接近的对照。
- 空间计量经济学:空间自回归模型和空间误差模型依赖于空间权重矩阵的构建,该矩阵通常基于地理距离(如各区域中心之间的欧氏距离的倒数)或经济距离(如地区间 GDP 差距的绝对值倒数)。距离的衰减函数形式(如反距离、指数衰减)对空间溢出效应的估计结果具有直接影响。
- 统计检验:Kolmogorov-Smirnov 检验使用两个经验分布函数的最大垂直距离作为检验统计量,判断样本是否来自特定分布;安德森-达林检验则基于加权平方距离,在尾部给予更高权重。
- 优化与数值计算:在梯度下降法中,参数更新的"步长"本质上是参数空间中当前位置与目标位置之间的距离;收敛性判断也通常基于相邻迭代点之间的欧氏距离小于某个阈值。
距离的选取原则
距离函数的选择对分析结果有深远影响,不存在普遍最优的度量。关键在于根据数据特征和分析目标做出合理选择:
- 若各维度尺度差异大且相关性强,优先考虑马氏距离;
- 若数据稀疏且高维,曼哈顿距离往往优于欧氏距离,因后者在高维空间中会产生"距离集中"现象;
- 若关注向量的方向(如文本分类、推荐系统),余弦距离更为自然;
- 若涉及概率分布或统计推断,海林格距离和 KL 散度等概率度量应作为首选。
在实际应用中,强烈建议在度量之前对数据进行适当的预处理(标准化、去相关化、降维),并尝试多种距离函数验证结论的稳定性。距离的选择不仅是技术决策,更是对所研究问题几何结构的实质性建模假设。