ARTICLE

归一性

归一性 (Normalization) 归一性是数学、统计学与计算机科学中的基本概念,其核心是将一组数据或函数通过数学变换缩放到一个"标准"形式——通常意味着总和为1、范数为1或数值范围在 [0,1] 区间内。归一化的主要目的在于消除量纲或值域差异,使数据可比或满足特定理论框架(如概率论)的公理化要求。 统计学与机器学习中的归一化 在数据科学和机器学习中,归

浏览 18 更新 2025-10-25

归一性 (Normalization)

归一性是数学、统计学与计算机科学中的基本概念,其核心是将一组数据或函数通过数学变换缩放到一个"标准"形式——通常意味着总和为1、范数为1或数值范围在 [0,1] [0,1] 区间内。归一化的主要目的在于消除量纲或值域差异,使数据可比或满足特定理论框架(如概率论)的公理化要求。

统计学与机器学习中的归一化

数据科学机器学习中,归一化通常指特征缩放 (Feature Scaling),将不同尺度的特征映射到同一固定范围,以提升模型训练效率。

最小-最大归一化 (Min-Max Normalization) 是最常见的技术,将原始数据线性映射到 [0,1] [0, 1]

xnorm=xxminxmaxxminx'_{\text{norm}} = \frac{x - x_{\min}}{x_{\max} - x_{\min}}

许多算法(尤其是基于梯度下降线性回归神经网络和基于距离的K-近邻算法 (KNN)支持向量机 (SVM))对特征尺度高度敏感。未归一化时,数值范围大的特征会主导优化过程,导致收敛缓慢甚至失败。

标准化的区别:标准化(Z-score normalization)将数据转换为均值为0、标准差为1的分布:xstd=(xμ)/σ x'_{\text{std}} = (x - \mu)/\sigma 。与归一化不同,标准化无严格边界,但对离群值较不敏感。

概率论中的归一性

概率论中,归一性是公理体系的基石:所有可能结果的概率之和必须等于1,代表"某一结果必然发生"的确定性。

离散分布:随机变量 X X 取值 x1,,xn x_1,\dots,x_n 时,iP(X=xi)=1 \sum_i P(X=x_i) = 1

连续分布:概率密度函数 f(x) f(x) 在整个定义域上的积分为1:f(x)dx=1 \int_{-\infty}^{\infty} f(x)\,dx = 1 。若某非负可积函数 g(x) g(x) 的积分为常数 C C ,则 f(x)=g(x)/C f(x) = g(x)/C 即为归一化后的密度函数,C C 称为归一化常数

线性代数中的归一化

在线性代数中,归一化指将非零向量转换为方向相同但长度(范数)为1的单位向量。对于向量 v \vec{v} ,其单位向量为:

v^=vv\hat{v} = \frac{\vec{v}}{\|\vec{v}\|}

最常用的是欧几里得范数(L2范数):v=v12+v22++vn2 \|\vec{v}\| = \sqrt{v_1^2 + v_2^2 + \cdots + v_n^2} 。向量归一化在余弦相似度计算中至关重要,使得相似度仅依赖于方向而非向量长度。

量子力学中的归一性

量子力学中,粒子的状态由波函数 Ψ(x,t) \Psi(x, t) 描述。根据玻恩的统计诠释,Ψ(x,t)2 |\Psi(x, t)|^2 代表在时间 t t 、位置 x x 处发现粒子的概率密度。由于粒子必然存在于宇宙某处,波函数必须满足归一化条件:

Ψ(x,t)2dx=1\int_{-\infty}^{\infty} |\Psi(x, t)|^2\,dx = 1

这确保了从波函数计算出的概率符合概率论公理,是量子力学的基本假定之一。