ARTICLE

维数

维数 (Dimension) 维数是度量空间或数学结构中"自由度"的基本概念,在线性代数、统计学、计量经济学和机器学习中均有核心地位。不同语境下维数有不同但内在关联的定义:向量空间的维数、拓扑空间的维数、统计模型的自由度、数据集的变量个数等。 线性代数中的维数 在线性代数中,向量空间 V 的维数(记作 V)定义为该空间中任意一组基(basis)所含向量的个数

浏览 0 更新 2025-11-08

维数 (Dimension)

维数是度量空间或数学结构中"自由度"的基本概念,在线性代数统计学计量经济学机器学习中均有核心地位。不同语境下维数有不同但内在关联的定义:向量空间的维数、拓扑空间的维数、统计模型的自由度、数据集的变量个数等。

线性代数中的维数

在线性代数中,向量空间 VV维数(记作 dimV\dim V)定义为该空间中任意一组(basis)所含向量的个数。基是一组线性无关且张成整个空间的向量,维数是基的势(cardinality),不依赖于基的具体选取——这是线性代数中最深刻的不变量之一。有限维空间的核心定理是维数公式

dim(U+W)=dimU+dimWdim(UW)\dim(U + W) = \dim U + \dim W - \dim(U \cap W)

其中 U,WU, W 是同一向量空间的子空间。进一步地,线性映射 T:VWT: V \to W 满足秩-零化度定理

dimV=dim(kerT)+dim(imT)\dim V = \dim(\ker T) + \dim(\operatorname{im} T)

该定理在线性回归Frisch-Waugh-Lovell定理证明中起到关键作用:通过将设计矩阵的列空间分解为正交补,可以精细刻画控制变量对估计量的影响。

统计学中的维数与自由度

在统计学中,维数最直接的对应概念是自由度(degrees of freedom)。一个含有 pp 个参数的线性回归模型 y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}(其中 XRn×p\mathbf{X} \in \mathbb{R}^{n \times p} 列满秩)的模型维数为 pp,残差自由度为 npn - p。残差平方和 yXβ^2/σ2\|\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}\|^2 / \sigma^2 服从自由度为 npn-p卡方分布。更一般地,有效自由度(effective degrees of freedom)概念由Hastie和Tibshirani提出,适用于岭回归LASSO等正则化方法:df(y^)=tr(Hλ)df(\hat{\mathbf{y}}) = \operatorname{tr}(\mathbf{H}_\lambda),其中 Hλ\mathbf{H}_\lambda 是收缩后的帽子矩阵。

多元统计分析中,维数直接决定了方法的行为:主成分分析(PCA)的实质是将高维数据投影到低维子空间,维数的选择(保留多少个主成分)通过碎石图(scree plot)和累计方差解释比例来确定。典型相关分析因子分析同样围绕维数缩减展开。

维数灾难

维数灾难(Curse of Dimensionality)由Bellman(1957)在动态规划研究中首次明确提出,描述的是随着维数增长,数据分析中出现的指数级困难。在密度估计和非参数回归中,达到给定精度的最优收敛速率通常为 O(n4/(4+d))O(n^{-4/(4+d)})(其中 dd 是维数),这意味着维数越高,同等样本量下的估计精度越低。等价地,要在高维空间中填充一个邻域,所需样本量随维数指数增长。

在计量经济学中,维数灾难直接限制了非参数计量方法的适用范围:条件期望 E[YX]E[Y|X] 的非参数估计仅当 XX 的维数很低(通常 d3d \le 3)时可行。为克服这一问题,半参数模型(如部分线性模型单指标模型)通过结构假设将有效维数压缩,在灵活性与可行性之间取得平衡。匹配估计量中,Rosenbaum和Rubin的倾向得分方法将高维协变量匹配问题降维至一维,正是规避维数灾难的经典案例。

降维方法

面对高维数据,计量经济学和统计学发展了一系列降维技术。充分降维(Sufficient Dimension Reduction)旨在找到协变量空间的低维线性组合,使得给定这些组合后响应变量与协变量条件独立:Y ⁣ ⁣ ⁣XBTXY \perp\!\!\!\perp X \mid \mathbf{B}^T X,其中 BRp×d\mathbf{B} \in \mathbb{R}^{p \times d}dpd \ll pSIR(Sliced Inverse Regression)和SAVE是两种经典的充分降维方法。

在时间序列计量经济学中,协整Johansen检验通过检验矩阵的秩(等价于共同随机趋势的数目)来确定系统的维数结构。在面板数据中,个体维数 NN 和时间维数 TT 的相对大小决定了适用固定效应还是随机效应估计量,以及是否需要考虑附参数问题(incidental parameters problem)。当 N,TN, T 均较大时,高维面板的交互固定效应模型(Bai 2009)进一步将维数问题从一维拓展至多维因子结构。