# 范数 (Norm)
范数 (Norm) 是{{{线性代数}}}和{{{泛函分析}}}中的一个核心概念,它为{{{向量空间}}}中的每个{{{向量}}}赋予了一个非负的“长度”或“大小”的度量。从几何上看,范数是欧几里得空间中我们熟悉的长度概念的推广;从分析上看,它允许我们定义和度量向量之间的“距离”,并在此基础上建立{{{收敛}}}、{{{连续性}}}等重要概念。
一个定义在{{{向量空间}}} $V$(在实数域 $\mathbb{R}$ 或复数域 $\mathbb{C}$ 上)的范数是一个函数 $p: V \to \mathbb{R}$,它将每个向量 $\mathbf{x} \in V$ 映射到一个非负实数 $p(\mathbf{x})$(通常记作 $\|\mathbf{x}\|$),并满足以下三条公理:
1. 正定性 (Positive Definiteness):对于任意向量 $\mathbf{x} \in V$,有 $\|\mathbf{x}\| \ge 0$。且 $\|\mathbf{x}\| = 0$ 当且仅当 $\mathbf{x}$ 是{{{零向量}}} $\mathbf{0}$。 $$ \|\mathbf{x}\| = 0 \iff \mathbf{x} = \mathbf{0} $$ 这确保了只有零向量的“长度”为零,任何非零向量都具有严格为正的长度。
2. 绝对齐次性 (Absolute Homogeneity) 或 绝对可伸缩性 (Absolute Scalability):对于任意标量 $\alpha$ 和任意向量 $\mathbf{x} \in V$,有 $\|\alpha\mathbf{x}\| = |\alpha|\|\mathbf{x}\|$。 $$ \|\alpha\mathbf{x}\| = |\alpha|\|\mathbf{x}\| $$ 这意味着将一个向量缩放 $\alpha$ 倍,其范数(长度)也随之缩放 $|\alpha|$ 倍。负号不影响长度,只改变方向。
3. 三角不等式 (Triangle Inequality):对于任意两个向量 $\mathbf{x}, \mathbf{y} \in V$,有 $\|\mathbf{x} + \mathbf{y}\| \le \|\mathbf{x}\| + \|\mathbf{y}\|$。 $$ \|\mathbf{x} + \mathbf{y}\| \le \|\mathbf{x}\| + \|\mathbf{y}\| $$ 这可以理解为“两边之和大于第三边”。从几何上看,从原点经由点 $\mathbf{x}$ 再到点 $\mathbf{x}+\mathbf{y}$ 的路径长度($\|\mathbf{x}\|+\|\mathbf{y}\|$),不会比从原点直接到点 $\mathbf{x}+\mathbf{y}$ 的路径长度($\|\mathbf{x}+\mathbf{y}\|$)更短。
一个赋有范数的向量空间被称为赋范向量空间 (Normed Vector Space)。
## 常见的$p$-范数 ($L_p$ Norm)
在有限维的{{{欧几里得空间}}} $\mathbb{R}^n$ 中,最常用的一族范数是 $p$-范数,或称 $L_p$ 范数。对于一个向量 $\mathbf{x} = (x_1, x_2, \ldots, x_n)$,其 $p$-范数 ($p \ge 1$) 定义为: $$ \|\mathbf{x}\|_p = \left( \sum_{i=1}^{n} |x_i|^p \right)^{1/p} $$ 其中,几个特别重要的特例是 $p=1, p=2$ 和 $p \to \infty$ 的情况。
### 1. $L_1$ 范数 (Manhattan Norm)
当 $p=1$ 时,我们得到 $L_1$ 范数,也称为曼哈顿范数或出租车范数 (Taxicab Norm)。 $$ \|\mathbf{x}\|_1 = \sum_{i=1}^{n} |x_i| $$ 这个范数计算的是向量各分量绝对值之和。其“曼哈顿”之名源于一个形象的比喻:在一个像曼哈顿那样的棋盘式街道网格中,从一个点到另一个点的最短距离不是直线距离,而是沿着街区行走的距离之和。
* 应用:在{{{机器学习}}}和{{{统计学}}}中,$L_1$ 范数非常重要,尤其是在{{{正则化}}}方法中。例如,{{{LASSO 回归}}}通过在损失函数中加入 $L_1$ 范数惩罚项,能够产生稀疏解 (Sparse Solution),即模型中许多参数的{{{系数}}}会变为精确的零。这使得 $L_1$ 正则化成为一种有效的{{{特征选择}}}工具。
### 2. $L_2$ 范数 (Euclidean Norm)
当 $p=2$ 时,我们得到 $L_2$ 范数,即我们最熟悉的欧几里得范数。 $$ \|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^{n} x_i^2} $$ 这正是基于{{{勾股定理}}}(毕达哥拉斯定理)计算出的向量在空间中的直线长度。如果未特别指明,通常所说的“范数”或“模长”指的就是 $L_2$ 范数。它与{{{内积}}} (Inner Product) 密切相关,因为 $\|\mathbf{x}\|_2 = \sqrt{\mathbf{x} \cdot \mathbf{x}}$。
* 应用:$L_2$ 范数是科学和工程领域最广泛应用的范数。在统计学中,{{{最小二乘法}}} (OLS) 的目标就是最小化残差向量的 $L_2$ 范数的平方。{{{岭回归}}} (Ridge Regression) 使用 $L_2$ 范数作为惩罚项,用于防止{{{过拟合}}},它倾向于使模型的系数变小,但通常不会变为零。
### 3. $L_\infty$ 范数 (Maximum Norm)
当 $p \to \infty$ 时,$p$-范数会收敛到一个特殊的形式,称为 $L_\infty$ 范数,也叫最大范数或切比雪夫范数 (Chebyshev Norm)。 $$ \|\mathbf{x}\|_\infty = \max_{i \in \{1, \ldots, n\}} |x_i| $$ $L_\infty$ 范数就是向量中绝对值最大的那个分量的值。
* 应用:$L_\infty$ 范数在关注“最坏情况”或“峰值”的场景中非常有用。例如,在信号处理中,它可能用来衡量信号的最大振幅;在数值分析中,它用来度量一个近似解与真实解之间的最大误差。
## 范数的几何直观:单位球
理解不同范数之间差异的一个极佳方式是观察它们的单位球 (Unit Ball)。一个单位球是该范数下所有范数值小于等于 1 的向量的集合,即 $\{\mathbf{x} \in \mathbb{R}^n \mid \|\mathbf{x}\| \le 1\}$ 。在二维空间 $\mathbb{R}^2$ 中:
* $L_2$ 范数单位球:$\sqrt{x^2+y^2} \le 1$,这是一个半径为 1 的圆形。 * $L_1$ 范数单位球:$|x|+|y| \le 1$,这是一个四个顶点分别为 $(1,0), (0,1), (-1,0), (0,-1)$ 的菱形(旋转了45度的正方形)。 * $L_\infty$ 范数单位球:$\max(|x|, |y|) \le 1$,这是一个四个顶点分别为 $(1,1), (-1,1), (-1,-1), (1,-1)$ 的,与坐标轴对齐的正方形。
这个几何差异解释了为什么 $L_1$ 正则化能产生稀疏解。当一个优化问题的解(如{{{等高线}}})与 $L_1$ 单位球相交时,交点很可能发生在单位球的“尖角”处(即坐标轴上),这使得其中一个坐标分量为零。而 $L_2$ 单位球是光滑的圆形,交点通常不会恰好落在坐标轴上。
## 范数的等价性
在有限维向量空间(如 $\mathbb{R}^n$)中,所有范数都是等价的 (Equivalent)。这意味着,对于该空间上的任意两个范数 $\|\cdot\|_a$ 和 $\|\cdot\|_b$,都存在正常数 $C_1$ 和 $C_2$,使得对于所有向量 $\mathbf{x}$,以下不等式成立: $$ C_1 \|\mathbf{x}\|_b \le \|\mathbf{x}\|_a \le C_2 \|\mathbf{x}\|_b $$ 范数等价性的一个重要推论是,在有限维空间中,一个向量序列是否收敛,与你选择哪种范数来度量收敛性无关。如果一个序列在一种范数下收敛,它在所有范数下都收敛。然而,在无限维向量空间(如函数空间)中,范数不一定等价,选择不同的范数可能会导致截然不同的分析结果。这是{{{泛函分析}}}研究的核心课题之一。
## 扩展与应用
* 矩阵范数 (Matrix Norm):范数的概念可以推广到{{{矩阵}}}空间,用于衡量矩阵的“大小”。矩阵范数在迭代法求解线性方程组的收敛性分析和{{{扰动理论}}}中至关重要。
* 函数空间:在{{{泛函分析}}}中,范数被用来定义函数空间的结构,如 $L_p$ 空间。例如,在区间 $[a,b]$ 上的连续函数空间 $C[a,b]$ 中,可以定义 $L_p$ 范数: $$ \|f\|_p = \left( \int_a^b |f(x)|^p dx \right)^{1/p} $$ 这些赋范函数空间,特别是当它们是完备的(即构成{{{巴拿赫空间}}} (Banach Space) 或{{{希尔伯特空间}}} (Hilbert Space))时,为{{{偏微分方程}}}、{{{傅里叶分析}}}和{{{量子力学}}}等领域提供了坚实的数学基础。