正交基 (Orthogonal Basis)
正交基 是线性代数 与泛函分析 中的核心概念:向量空间的一组基,其基向量两两正交。正交基将几何直觉(垂直)与代数结构(基)融为一体,使得向量的坐标表示和投影计算极为简洁,是最小二乘法 、主成分分析 和傅里叶分析 等众多理论与应用的基础。
定义
设 V V V 为装备了内积 ⟨ ⋅ , ⋅ ⟩ \langle \cdot, \cdot \rangle ⟨ ⋅ , ⋅ ⟩ 的内积空间 (实情形为欧几里得空间,复情形为酉空间 )。一组非零向量 { v 1 , v 2 , … , v n } ⊆ V \{ \mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_n \} \subseteq V { v 1 , v 2 , … , v n } ⊆ V 称为 V V V 的正交基 ,当且仅当:
正交性 :对任意 i ≠ j i \neq j i = j ,有 ⟨ v i , v j ⟩ = 0 \langle \mathbf{v}_i, \mathbf{v}_j \rangle = 0 ⟨ v i , v j ⟩ = 0 ——基向量两两正交;基性 :{ v 1 , … , v n } \{ \mathbf{v}_1, \dots, \mathbf{v}_n \} { v 1 , … , v n } 构成 V V V 的一组基 (线性无关且张成整个空间)。
若附加条件 ∥ v i ∥ = 1 \|\mathbf{v}_i\| = 1 ∥ v i ∥ = 1 (每个基向量为单位向量),则称为标准正交基 或规范正交基 (Orthonormal Basis)。任意正交基可通过除以各自的模长规范化为标准正交基:e i = v i / ∥ v i ∥ \mathbf{e}_i = \mathbf{v}_i / \|\mathbf{v}_i\| e i = v i /∥ v i ∥ 。在 R n \mathbb{R}^n R n 中,标准基 { e 1 , … , e n } \{\mathbf{e}_1, \dots, \mathbf{e}_n\} { e 1 , … , e n } 是最平凡但最重要的标准正交基。
核心性质
正交基的代数便利性集中体现在以下命题中。
Fourier 展开
设 { e 1 , … , e n } \{\mathbf{e}_1, \dots, \mathbf{e}_n\} { e 1 , … , e n } 为标准正交基,则任意向量 v ∈ V \mathbf{v} \in V v ∈ V 可唯一表示为:
v = ∑ i = 1 n ⟨ v , e i ⟩ e i \mathbf{v} = \sum_{i=1}^n \langle \mathbf{v}, \mathbf{e}_i \rangle \, \mathbf{e}_i v = i = 1 ∑ n ⟨ v , e i ⟩ e i
系数 c i = ⟨ v , e i ⟩ c_i = \langle \mathbf{v}, \mathbf{e}_i \rangle c i = ⟨ v , e i ⟩ 称为 v \mathbf{v} v 关于 e i \mathbf{e}_i e i 的Fourier 系数 。相较于一般基下需求解线性方程组获得坐标,正交基下的坐标仅需逐一计算内积——这是正交基相对于一般基的根本计算优势。若基数不再是标准正交的(仅正交),则表达式修正为:
v = ∑ i = 1 n ⟨ v , v i ⟩ ∥ v i ∥ 2 v i \mathbf{v} = \sum_{i=1}^n \frac{\langle \mathbf{v}, \mathbf{v}_i \rangle}{\|\mathbf{v}_i\|^2} \, \mathbf{v}_i v = i = 1 ∑ n ∥ v i ∥ 2 ⟨ v , v i ⟩ v i
Parseval 恒等式与 Bessel 不等式
对于标准正交基,向量的模平方等于其 Fourier 系数的平方和:
∥ v ∥ 2 = ∑ i = 1 n ∣ ⟨ v , e i ⟩ ∣ 2 \|\mathbf{v}\|^2 = \sum_{i=1}^n |\langle \mathbf{v}, \mathbf{e}_i \rangle|^2 ∥ v ∥ 2 = i = 1 ∑ n ∣ ⟨ v , e i ⟩ ∣ 2
这一恒等式是 Parseval 恒等式 在有限维的版本,在无穷维 Hilbert 空间中推广为 Plancherel 定理。若仅取基的子集张成的子空间上的投影,则等号变为不等号,成为 Bessel 不等式 :
∑ i = 1 k ∣ ⟨ v , e i ⟩ ∣ 2 ≤ ∥ v ∥ 2 \sum_{i=1}^k |\langle \mathbf{v}, \mathbf{e}_i \rangle|^2 \leq \|\mathbf{v}\|^2 i = 1 ∑ k ∣ ⟨ v , e i ⟩ ∣ 2 ≤ ∥ v ∥ 2
Bessel 不等式刻画了正交投影不增大模长的几何事实:投影掉的「垂直分量」永远贡献非负的模平方损失。
正交投影的坐标公式
设 W = span { e 1 , … , e k } W = \operatorname{span}\{\mathbf{e}_1, \dots, \mathbf{e}_k\} W = span { e 1 , … , e k } 为前 k k k 个标准正交基向量张成的子空间。则 v \mathbf{v} v 在 W W W 上的正交投影 为:
proj W ( v ) = ∑ i = 1 k ⟨ v , e i ⟩ e i \operatorname{proj}_W(\mathbf{v}) = \sum_{i=1}^k \langle \mathbf{v}, \mathbf{e}_i \rangle \, \mathbf{e}_i proj W ( v ) = i = 1 ∑ k ⟨ v , e i ⟩ e i
投影算子 P W P_W P W 可写为外积和:P W = ∑ i = 1 k e i e i T P_W = \sum_{i=1}^k \mathbf{e}_i \mathbf{e}_i^{\mathsf{T}} P W = ∑ i = 1 k e i e i T (实情形)。这一形式的计算复杂度仅为 O ( n k ) O(nk) O ( nk ) ,而在非正交基下投影需求解正规方程组,复杂度为 O ( n 3 ) O(n^3) O ( n 3 ) 。
Gram-Schmidt 正交化
任意有限维内积空间的基均可转化为正交基,这一过程由 Gram-Schmidt 正交化 算法实现。给定一组线性无关向量 { a 1 , … , a n } \{\mathbf{a}_1, \dots, \mathbf{a}_n\} { a 1 , … , a n } ,正交基 { v 1 , … , v n } \{\mathbf{v}_1, \dots, \mathbf{v}_n\} { v 1 , … , v n } 由递推构造:
v k = a k − ∑ j = 1 k − 1 ⟨ a k , v j ⟩ ∥ v j ∥ 2 v j \mathbf{v}_k = \mathbf{a}_k - \sum_{j=1}^{k-1} \frac{\langle \mathbf{a}_k, \mathbf{v}_j \rangle}{\|\mathbf{v}_j\|^2} \mathbf{v}_j v k = a k − j = 1 ∑ k − 1 ∥ v j ∥ 2 ⟨ a k , v j ⟩ v j
再经归一化 e k = v k / ∥ v k ∥ \mathbf{e}_k = \mathbf{v}_k / \|\mathbf{v}_k\| e k = v k /∥ v k ∥ 便得标准正交基。该算法的几何本质是:从 a k \mathbf{a}_k a k 中减去它在所有已选正交方向上的投影分量,使得余量与前 k − 1 k-1 k − 1 个 v j \mathbf{v}_j v j 正交。Gram-Schmidt 过程的存在性确保了任意内积空间均拥有正交基,是线性代数中「正交基存在性」的构造性证明。
在实际数值计算中,经典 Gram-Schmidt 因舍入误差易丧失正交性,通常以修正 Gram-Schmidt (MGS)或基于Householder 变换 的QR 分解 替代——后者在数值稳定性上表现更优且在现代统计软件(如 R 的 \texttt{lm} 函数)中为标准实现。
无穷维推广:Hilbert 空间中的正交基
上述概念可推广至无穷维的Hilbert 空间 。此时「基」的含义由 Hamel 基 (有限线性组合)转变为 Schauder 基 或更专门的Hilbert 基 (允许可数无限级数收敛)。ℓ 2 \ell^2 ℓ 2 空间中,标准正交基为 { e n } n = 1 ∞ \{\mathbf{e}_n\}_{n=1}^{\infty} { e n } n = 1 ∞ (第 n n n 个分量为 1,其余为 0)。空间 L 2 [ − π , π ] L^2[-\pi, \pi] L 2 [ − π , π ] 中,三角函数系
{ 1 2 π , cos ( n x ) π , sin ( n x ) π } n = 1 ∞ \left\{ \frac{1}{\sqrt{2\pi}}, \frac{\cos(nx)}{\sqrt{\pi}}, \frac{\sin(nx)}{\sqrt{\pi}} \right\}_{n=1}^{\infty} { 2 π 1 , π cos ( n x ) , π sin ( n x ) } n = 1 ∞
构成一组标准正交基,相应的 Fourier 展开恰为经典的傅里叶级数 。更一般地,Hilbert 空间中标准正交基的等价刻画为 Parseval 恒等式的成立 和张成子空间的稠密性 。
在计量经济学与统计学中的应用
OLS 的几何解释
在普通最小二乘法 (OLS)中,拟合值 y ^ = X β ^ = P y \hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{P}\mathbf{y} y ^ = X β ^ = Py 是 y \mathbf{y} y 在设计矩阵 X \mathbf{X} X 列空间上的正交投影。若对 X \mathbf{X} X 的列先做 Gram-Schmidt 正交化得到正交基,则回归系数的估计可以逐个变量独立计算:第 j j j 个系数仅取决于 y \mathbf{y} y 与第 j j j 个正交化后的解释变量的内积,而无需求解整个正规方程组。这是Frisch-Waugh-Lovell 定理 的几何实质——通过正交基的视角,多元回归被分解为一系列简单回归的级联。
主成分分析(PCA)
主成分分析 的核心是寻找 R p \mathbb{R}^p R p 中的一组标准正交基,使得数据在此基下的方差解释率递减。具体而言,对协方差矩阵 Σ \boldsymbol{\Sigma} Σ 做谱分解 :Σ = V Λ V T \boldsymbol{\Sigma} = \mathbf{V} \boldsymbol{\Lambda} \mathbf{V}^{\mathsf{T}} Σ = V Λ V T ,其中 V \mathbf{V} V 的列向量构成 R p \mathbb{R}^p R p 的一组标准正交基——即主成分方向。数据在这一新基下的坐标向量彼此不相关,且第 k k k 个坐标的方差恰为 λ k \lambda_k λ k 。正交基保证了各主成分之间的信息不重叠,这是 PCA 作为降维与去噪工具的核心前提。
实验设计与正交编码
在实验设计 中,正交编码(Orthogonal Coding)通过选择相互正交的对比(Contrasts)来分解处理效应。正交对比确保各效应的估计互不干扰、平方和可加——这是方差分析 (ANOVA)平方和分解 S S T = S S B + S S W SS_T = SSB + SSW S S T = SSB + SS W 的线性代数基础。在因子设计 中,正交性保证了主效应与交互效应的可估性不混杂(参见正交表 与拉丁方 设计)。
工具变量与矩条件
在广义矩方法 (GMM)中,工具变量 z i \mathbf{z}_i z i 与结构误差 ε i \varepsilon_i ε i 的正交条件 E [ z i ε i ] = 0 \mathbb{E}[\mathbf{z}_i \varepsilon_i] = \mathbf{0} E [ z i ε i ] = 0 构成矩条件族的理论基础。这些条件可视为在函数空间中选择一组「正交方向」来识别结构参数,而过度识别检验(Sargan-Hansen J 检验)实质上是检验额外的矩条件——额外的正交方向——是否与已有条件相容。
与相关概念的辨析
正交基区别于以下相关却不同的概念:
正交化 :将一组线性无关向量转化为正交向量组的过程,不涉及基的张成性质。正交矩阵 :满足 Q T Q = I \mathbf{Q}^{\mathsf{T}}\mathbf{Q} = \mathbf{I} Q T Q = I 的方阵,其列向量构成 R n \mathbb{R}^n R n 的一组标准正交基——正交矩阵的列就是标准正交基。正交性条件 :在计量经济学中指解释变量(或工具变量)与误差项不相关的假设——其代数形式恰为内积为零,与几何上的正交概念同源。
从纯粹几何到数据科学,正交基提供了一种「解耦」的思维框架:在正交基下,每个维度独立运作,一个向量的信息被完美地分配到互不干扰的坐标轴上。正是这种解耦性质,使得正交基成为线性方法从 OLS 到 PCA、从 Fourier 分析到量子力学的统一语言。