中心化矩阵 (Centering Matrix)
中心化矩阵 (Centering Matrix),又称中心算子 (Centering Operator),是统计学 、计量经济学 和多元统计分析 中用于将数据向量或矩阵的各分量减去其算术均值的线性变换矩阵。给定 n n n 个观测值,中心化矩阵 C n C_n C n 是一个 n × n n \times n n × n 的方阵,它将任意 n n n 维向量变换为其离差形式(即各分量减去均值)。中心化矩阵具有对称幂等性,本质上是一个投影矩阵 ,将 n n n 维向量投影到与常数向量正交的 ( n − 1 ) (n-1) ( n − 1 ) 维子空间上。它在方差-协方差矩阵 的计算、最小二乘法 的代数推导、面板数据 的组内变换以及主成分分析 中均扮演着核心角色。
定义与基本形式
设 1 n = ( 1 , 1 , … , 1 ) ⊤ \mathbf{1}_n = (1, 1, \ldots, 1)^\top 1 n = ( 1 , 1 , … , 1 ) ⊤ 为 n n n 维全1向量,I n \mathbf{I}_n I n 为 n × n n \times n n × n 单位矩阵。中心化矩阵定义为:
C n = I n − 1 n 1 n 1 n ⊤ \mathbf{C}_n = \mathbf{I}_n - \frac{1}{n} \mathbf{1}_n \mathbf{1}_n^\top C n = I n − n 1 1 n 1 n ⊤
其中 1 n 1 n ⊤ \mathbf{1}_n \mathbf{1}_n^\top 1 n 1 n ⊤ 是一个所有元素均为 1 1 1 的 n × n n \times n n × n 矩阵(记为 J n \mathbf{J}_n J n )。因此 C n = I n − 1 n J n \mathbf{C}_n = \mathbf{I}_n - \frac{1}{n} \mathbf{J}_n C n = I n − n 1 J n 。对于任意 n n n 维列向量 x = ( x 1 , … , x n ) ⊤ \mathbf{x} = (x_1, \ldots, x_n)^\top x = ( x 1 , … , x n ) ⊤ ,中心化变换的结果是:
C n x = x − x ˉ ⋅ 1 n = ( x 1 − x ˉ x 2 − x ˉ ⋮ x n − x ˉ ) \mathbf{C}_n \mathbf{x} = \mathbf{x} - \bar{x} \cdot \mathbf{1}_n =
\begin{pmatrix}
x_1 - \bar{x} \\ x_2 - \bar{x} \\ \vdots \\ x_n - \bar{x}
\end{pmatrix} C n x = x − x ˉ ⋅ 1 n = x 1 − x ˉ x 2 − x ˉ ⋮ x n − x ˉ
其中 x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i x ˉ = n 1 ∑ i = 1 n x i 是各分量的算术均值。这个运算在统计学中无处不在:它将原始观测值转化为与均值的偏差(deviation),为后续的平方和与交叉积分析奠定基础。中心化矩阵的元素可写为:
(\mathbf{C}_n)_{ij} = \begin{cases}
1 - 1 n \frac{1}{n} n 1 \& 若 \text{若 } 若 i = j \\ -1 n \frac{1}{n} n 1 \& 若 \text{若 } 若 i \neq j
\end{cases}
对角线元素均为 ( n − 1 ) / n (n-1)/n ( n − 1 ) / n ,非对角线元素均为 − 1 / n -1/n − 1/ n 。这种特殊的结构使得中心化矩阵兼具线性变换与矩阵代数的优雅性质。
代数性质
中心化矩阵拥有丰富而优美的代数性质,这些性质使得它在许多理论推导中可以大幅简化计算。
对称性与幂等性
中心化矩阵是对称的(C n ⊤ = C n \mathbf{C}_n^\top = \mathbf{C}_n C n ⊤ = C n ),也是幂等的(idempotent,C n 2 = C n \mathbf{C}_n^2 = \mathbf{C}_n C n 2 = C n )。幂等性的证明直接利用了 J n 2 = n J n \mathbf{J}_n^2 = n\mathbf{J}_n J n 2 = n J n 这一事实:
C n 2 = ( I n − 1 n J n ) ( I n − 1 n J n ) = I n − 2 n J n + 1 n 2 J n 2 = I n − 2 n J n + 1 n J n = I n − 1 n J n = C n \mathbf{C}_n^2 = (\mathbf{I}_n - \tfrac{1}{n}\mathbf{J}_n)(\mathbf{I}_n - \tfrac{1}{n}\mathbf{J}_n) = \mathbf{I}_n - \tfrac{2}{n}\mathbf{J}_n + \tfrac{1}{n^2}\mathbf{J}_n^2 = \mathbf{I}_n - \tfrac{2}{n}\mathbf{J}_n + \tfrac{1}{n}\mathbf{J}_n = \mathbf{I}_n - \tfrac{1}{n}\mathbf{J}_n = \mathbf{C}_n C n 2 = ( I n − n 1 J n ) ( I n − n 1 J n ) = I n − n 2 J n + n 2 1 J n 2 = I n − n 2 J n + n 1 J n = I n − n 1 J n = C n
对称且幂等,使 C n \mathbf{C}_n C n 成为一个正交投影矩阵 (orthogonal projection matrix)。
核与秩
常数向量 1 n \mathbf{1}_n 1 n 属于中心化矩阵的零空间,因为 C n 1 n = 1 n − 1 n J n 1 n = 1 n − 1 n ( n 1 n ) = 0 \mathbf{C}_n \mathbf{1}_n = \mathbf{1}_n - \frac{1}{n} \mathbf{J}_n \mathbf{1}_n = \mathbf{1}_n - \frac{1}{n}(n\mathbf{1}_n) = \mathbf{0} C n 1 n = 1 n − n 1 J n 1 n = 1 n − n 1 ( n 1 n ) = 0 。由于幂等矩阵的秩等于其迹,有:
rank ( C n ) = tr ( C n ) = ∑ i = 1 n ( 1 − 1 n ) = n − 1 \operatorname{rank}(\mathbf{C}_n) = \operatorname{tr}(\mathbf{C}_n) = \sum_{i=1}^n \left(1 - \frac{1}{n}\right) = n-1 rank ( C n ) = tr ( C n ) = i = 1 ∑ n ( 1 − n 1 ) = n − 1
这表示 C n \mathbf{C}_n C n 将任意 n n n 维向量投影到一个 ( n − 1 ) (n-1) ( n − 1 ) 维子空间上,该子空间由所有分量之和为零的向量构成。直观上,离差向量 C n x \mathbf{C}_n \mathbf{x} C n x 的各分量之和恒为零(∑ i = 1 n ( x i − x ˉ ) = 0 \sum_{i=1}^n (x_i - \bar{x}) = 0 ∑ i = 1 n ( x i − x ˉ ) = 0 ),因此信息确实只存在于 n − 1 n-1 n − 1 个维度中。这对应了自由度概念:用样本均值替代总体均值后,独立信息数量从 n n n 减少到 n − 1 n-1 n − 1 。
特征值与特征向量
C n \mathbf{C}_n C n 的特征值包含一个 0 0 0 和 n − 1 n-1 n − 1 个 1 1 1 。特征值 0 0 0 对应的特征向量是常数向量 1 n \mathbf{1}_n 1 n ,而特征值 1 1 1 对应的特征空间包含所有与 1 n \mathbf{1}_n 1 n 正交的向量(即分量和为零的向量)。这一谱结构再次确认了中心化矩阵的投影本质:它将空间分解为常数方向(被消去)和与之正交的“纯变差”方向(被保留)。
在统计学与计量经济学中的应用
样本方差与协方差矩阵
给定数据矩阵 X \mathbf{X} X (n × p n \times p n × p ),其第 j j j 列记为 x ( j ) \mathbf{x}_{(j)} x ( j ) ,样本协方差矩阵的经典公式为:
S = 1 n − 1 X ⊤ C n X \mathbf{S} = \frac{1}{n-1} \mathbf{X}^\top \mathbf{C}_n \mathbf{X} S = n − 1 1 X ⊤ C n X
这是因为 C n X \mathbf{C}_n \mathbf{X} C n X 将每一列中心化(减去各自列均值),随后 X ⊤ C n X \mathbf{X}^\top \mathbf{C}_n \mathbf{X} X ⊤ C n X 即为各列的离差交叉积和(即 ∑ i = 1 n ( x i j − x ˉ ⋅ j ) ( x i k − x ˉ ⋅ k ) \sum_{i=1}^n (x_{ij} - \bar{x}_{\cdot j})(x_{ik} - \bar{x}_{\cdot k}) ∑ i = 1 n ( x ij − x ˉ ⋅ j ) ( x ik − x ˉ ⋅ k ) )。这种矩阵表达极大简化了多元统计分析中协方差结构的代数操作,在推导多元正态分布 的极大似然估计和Wishart分布 的性质时尤为方便。
普通最小二乘法与残差平方和
在线性回归模型 y = X β + ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} y = X β + ε 中,中心化矩阵与残差计算密切相关。总平方和(Total Sum of Squares, SST)可简洁地表示为 SST = y ⊤ C n y \text{SST} = \mathbf{y}^\top \mathbf{C}_n \mathbf{y} SST = y ⊤ C n y 。若模型中包含截距项(即 X \mathbf{X} X 的第一列为 1 n \mathbf{1}_n 1 n ),则 C n X \mathbf{C}_n \mathbf{X} C n X 会将截距列消去,自然地实现去均值化 。这也直接引出经典方差分解 SST = SSE + SSR \text{SST} = \text{SSE} + \text{SSR} SST = SSE + SSR ,以及判定系数 R 2 = 1 − SSE SST R^2 = 1 - \frac{\text{SSE}}{\text{SST}} R 2 = 1 − SST SSE 的矩阵表达。
弗里施-沃-洛弗尔定理
弗里施-沃-洛弗尔定理 (Frisch-Waugh-Lovell Theorem)声称:在多元回归中,一组变量的系数可以通过对残差回归来获得。其核心代数工具正是中心化矩阵和更一般的残差生成矩阵 M = I − X ( X ⊤ X ) − 1 X ⊤ \mathbf{M} = \mathbf{I} - \mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top M = I − X ( X ⊤ X ) − 1 X ⊤ 。当只需要消除常数项时,C n \mathbf{C}_n C n 就是最简单的 M \mathbf{M} M 。该定理在面板数据 的固定效应估计以及去趋势分析 中有广泛应用。
面板数据的组内变换
在面板数据计量经济学中,固定效应模型 (Fixed Effects Model)通过消除不随时间变化的个体异质性 α i \alpha_i α i 来获得一致估计。对于个体 i i i 的时间序列 y i = ( y i 1 , … , y i T ) ⊤ \mathbf{y}_i = (y_{i1}, \ldots, y_{iT})^\top y i = ( y i 1 , … , y i T ) ⊤ ,组内变换(within transformation)为:
y ~ i = C T y i \tilde{\mathbf{y}}_i = \mathbf{C}_T \mathbf{y}_i y ~ i = C T y i
即将每个个体的观测减去其时间均值,从根本上消去 α i \alpha_i α i 。这是因为 α i \alpha_i α i 在每个 t t t 上均不变,C T ( α i 1 T ) = α i C T 1 T = 0 \mathbf{C}_T (\alpha_i \mathbf{1}_T) = \alpha_i \mathbf{C}_T \mathbf{1}_T = \mathbf{0} C T ( α i 1 T ) = α i C T 1 T = 0 。组内估计量因而只依赖个体内部随时间变动的信息,中心化矩阵在此处是不可或缺的变换工具。
与其他矩阵的关系
投影矩阵与残差生成矩阵
中心化矩阵是投影矩阵 家族中最简单的一员。一般的投影矩阵 P = X ( X ⊤ X ) − 1 X ⊤ \mathbf{P} = \mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top P = X ( X ⊤ X ) − 1 X ⊤ 将向量投影到 X \mathbf{X} X 的列空间,而 C n \mathbf{C}_n C n 则是将向量投影到常数向量 1 n \mathbf{1}_n 1 n 的正交补空间。相应地,残差生成矩阵 M = I − P \mathbf{M} = \mathbf{I} - \mathbf{P} M = I − P 在 X = 1 n \mathbf{X} = \mathbf{1}_n X = 1 n 这一特例下退化为 C n \mathbf{C}_n C n 。从这个角度看,中心化矩阵是“对常数做回归后的残差生成矩阵”。
与双重中心化的关系
在距离分析 和多维标度法 (Multidimensional Scaling, MDS)中,我们需要对方差矩阵进行双重中心化 (double centering)。给定平方欧氏距离矩阵 D ( 2 ) \mathbf{D}^{(2)} D ( 2 ) ,其双重中心化形式为:
B = − 1 2 C n D ( 2 ) C n \mathbf{B} = -\frac{1}{2} \mathbf{C}_n \mathbf{D}^{(2)} \mathbf{C}_n B = − 2 1 C n D ( 2 ) C n
左右各乘一次中心化矩阵,使行和列均被中心化,结果 B \mathbf{B} B 是内积矩阵(Gram matrix),其特征分解即给出MDS的低维嵌入坐标。这一操作构成了经典多维标度法 (Classical MDS,又称主坐标分析)的算法核心。
与图拉普拉斯矩阵的类比
中心化矩阵 C n = I n − 1 n J n \mathbf{C}_n = \mathbf{I}_n - \frac{1}{n}\mathbf{J}_n C n = I n − n 1 J n 在结构上与完全图的拉普拉斯矩阵 (Graph Laplacian)L = D − A \mathbf{L} = \mathbf{D} - \mathbf{A} L = D − A 具有形式上的相似性。对于 n n n 个节点的完全图,其归一化拉普拉斯矩阵恰为 L norm = I n − 1 n J n = C n \mathbf{L}_{\text{norm}} = \mathbf{I}_n - \frac{1}{n}\mathbf{J}_n = \mathbf{C}_n L norm = I n − n 1 J n = C n 。这一联系为谱聚类 和图信号处理 提供了一条统计学视角的沟通路径:样本均值的去除等价于在图完全连通结构下对低频常数信号的滤除。
小结
中心化矩阵体现代数与统计的深度统一。它用一个简单的 n × n n \times n n × n 矩阵将“减去均值”这一最基本的统计操作转化为幂等投影的线性代数语言,从而能以简洁优美的矩阵公式表达方差、协方差、回归平方和等核心统计量。在面板数据固定效应估计、多元方差分析、多维标度法等高级方法中,中心化矩阵都是不可或缺的分析工具。理解其代数性质——对称、幂等、秩为 n − 1 n-1 n − 1 、核为常数向量——是深入掌握线性模型理论的关键一步。对任何从事定量社会科学研究的学者而言,将 C n x = x − x ˉ 1 n \mathbf{C}_n \mathbf{x} = \mathbf{x} - \bar{x}\mathbf{1}_n C n x = x − x ˉ 1 n 内化为直觉,能显著提升阅读和推导计量理论时的速度与深度。