ARTICLE
维数
维数 (Dimension) 维数是度量空间或数学结构中"自由度"的基本概念,在线性代数、统计学、计量经济学和机器学习中均有核心地位。不同语境下维数有不同但内在关联的定义:向量空间的维数、拓扑空间的维数、统计模型的自由度、数据集的变量个数等。 线性代数中的维数 在线性代数中,向量空间 V 的维数(记作 V)定义为该空间中任意一组基(basis)所含向量的个数
维数 (Dimension)
维数是度量空间或数学结构中"自由度"的基本概念,在线性代数、统计学、计量经济学和机器学习中均有核心地位。不同语境下维数有不同但内在关联的定义:向量空间的维数、拓扑空间的维数、统计模型的自由度、数据集的变量个数等。
线性代数中的维数
在线性代数中,向量空间 的维数(记作 )定义为该空间中任意一组基(basis)所含向量的个数。基是一组线性无关且张成整个空间的向量,维数是基的势(cardinality),不依赖于基的具体选取——这是线性代数中最深刻的不变量之一。有限维空间的核心定理是维数公式:
其中 是同一向量空间的子空间。进一步地,线性映射 满足秩-零化度定理:
该定理在线性回归的Frisch-Waugh-Lovell定理证明中起到关键作用:通过将设计矩阵的列空间分解为正交补,可以精细刻画控制变量对估计量的影响。
统计学中的维数与自由度
在统计学中,维数最直接的对应概念是自由度(degrees of freedom)。一个含有 个参数的线性回归模型 (其中 列满秩)的模型维数为 ,残差自由度为 。残差平方和 服从自由度为 的卡方分布。更一般地,有效自由度(effective degrees of freedom)概念由Hastie和Tibshirani提出,适用于岭回归和LASSO等正则化方法:,其中 是收缩后的帽子矩阵。
在多元统计分析中,维数直接决定了方法的行为:主成分分析(PCA)的实质是将高维数据投影到低维子空间,维数的选择(保留多少个主成分)通过碎石图(scree plot)和累计方差解释比例来确定。典型相关分析和因子分析同样围绕维数缩减展开。
维数灾难
维数灾难(Curse of Dimensionality)由Bellman(1957)在动态规划研究中首次明确提出,描述的是随着维数增长,数据分析中出现的指数级困难。在密度估计和非参数回归中,达到给定精度的最优收敛速率通常为 (其中 是维数),这意味着维数越高,同等样本量下的估计精度越低。等价地,要在高维空间中填充一个邻域,所需样本量随维数指数增长。
在计量经济学中,维数灾难直接限制了非参数计量方法的适用范围:条件期望 的非参数估计仅当 的维数很低(通常 )时可行。为克服这一问题,半参数模型(如部分线性模型、单指标模型)通过结构假设将有效维数压缩,在灵活性与可行性之间取得平衡。匹配估计量中,Rosenbaum和Rubin的倾向得分方法将高维协变量匹配问题降维至一维,正是规避维数灾难的经典案例。
降维方法
面对高维数据,计量经济学和统计学发展了一系列降维技术。充分降维(Sufficient Dimension Reduction)旨在找到协变量空间的低维线性组合,使得给定这些组合后响应变量与协变量条件独立:,其中 且 。SIR(Sliced Inverse Regression)和SAVE是两种经典的充分降维方法。
在时间序列计量经济学中,协整的Johansen检验通过检验矩阵的秩(等价于共同随机趋势的数目)来确定系统的维数结构。在面板数据中,个体维数 和时间维数 的相对大小决定了适用固定效应还是随机效应估计量,以及是否需要考虑附参数问题(incidental parameters problem)。当 均较大时,高维面板的交互固定效应模型(Bai 2009)进一步将维数问题从一维拓展至多维因子结构。