知经 KNOWECON · 卓越的经济金融统计数学学习平台

# 秩 (Rank)

秩 (Rank) 是{{{线性代数}}}中描述{{{矩阵}}}或{{{线性变换}}}的一个核心概念。从本质上讲,一个矩阵的秩衡量了其行向量或列向量所构成的向量空间的“维度”,或者说,它表示了矩阵中包含的“独立信息”的数量。秩在解决{{{线性方程组}}}、判断矩阵的可逆性以及理解线性变换的几何性质等方面扮演着至关重要的角色。

## 定义

一个矩阵的秩有多种等价的定义方式,这些定义从不同角度揭示了秩的内涵。设 $A$ 是一个 $m \times n$ 的矩阵。

1. 列秩 (Column Rank):矩阵 $A$ 的列秩是其列向量中,{{{线性无关}}}的向量的最大数目。这等价于 $A$ 的{{{列空间}}} (Column Space) 的{{{维度}}}。 2. 行秩 (Row Rank):矩阵 $A$ 的行秩是其行向量中,线性无关的向量的最大数目。这等价于 $A$ 的{{{行空间}}} (Row Space) 的{{{维度}}}。 3. 核心定理:对于任何矩阵,其行秩恒等于其列秩。这个共同的值就被称为该矩阵的秩,记作 $\operatorname{rank}(A)$ 或 $\rk(A)$。这个定理是线性代数的基本定理之一,它统一了秩的概念。 4. 简化阶梯形定义:将矩阵 $A$ 通过{{{初等行变换}}} (Elementary Row Operations) 化为{{{行阶梯形矩阵}}} (Row Echelon Form),其非零行的数量即为矩阵的秩。这是计算矩阵秩最常用和最有效的方法。 5. 子式定义 (Determinant Rank):矩阵 $A$ 的秩是其非零{{{子式}}} (Minor) 的最大阶数。换言之,如果存在一个 $r \times r$ 的子矩阵,其{{{行列式}}}不为零,而所有 $(r+1) \times (r+1)$(及以上阶)的子矩阵的行列式都为零,则该矩阵的秩为 $r$。

## 计算方法:高斯消元法

计算矩阵秩最直接的方法是利用{{{高斯消元法}}}将其转换为行阶梯形矩阵。秩就是阶梯形矩阵中非零行的数目,也等于主元 (pivots) 的个数。

示例:计算以下矩阵 $A$ 的秩。 $$ A = \begin{pmatrix} 1 & 2 & 1 & 3 \\ 2 & 4 & 3 & 7 \\ 3 & 6 & 6 & 12 \end{pmatrix} $$ 我们对其进行初等行变换: 1. 第二行减去第一行的2倍 ($R_2 \to R_2 - 2R_1$);第三行减去第一行的3倍 ($R_3 \to R_3 - 3R_1$)。 $$ \begin{pmatrix} 1 & 2 & 1 & 3 \\ 0 & 0 & 1 & 1 \\ 0 & 0 & 3 & 3 \end{pmatrix} $$ 2. 第三行减去第二行的3倍 ($R_3 \to R_3 - 3R_2$)。 $$ \begin{pmatrix} 1 & 2 & 1 & 3 \\ 0 & 0 & 1 & 1 \\ 0 & 0 & 0 & 0 \end{pmatrix} $$ 这个矩阵已经是行阶梯形矩阵。它有两个非零行(第一行和第二行),因此,$\operatorname{rank}(A) = 2$。

## 秩的重要性质

设 $A$ 是一个 $m \times n$ 的矩阵。 * 秩的范围:$0 \le \operatorname{rank}(A) \le \min(m, n)$。秩不可能超过其行数或列数。 * 零矩阵:$\operatorname{rank}(A) = 0$ 当且仅当 $A$ 是{{{零矩阵}}}。 * 满秩 (Full Rank): * 如果 $\operatorname{rank}(A) = \min(m, n)$,则称矩阵 $A$ 是满秩的。 * 如果 $A$ 是一个 $n \times n$ 的{{{方块矩阵}}},那么 $A$ 是{{{可逆矩阵}}} (或称非奇异矩阵) 当且仅当 $\operatorname{rank}(A) = n$。如果 $\operatorname{rank}(A) < n$,则称 $A$ 是{{{奇异矩阵}}} (Singular Matrix)。这是判断矩阵是否可逆的关键准则。 * 转置:矩阵的秩等于其{{{转置矩阵}}}的秩,即 $\operatorname{rank}(A) = \operatorname{rank}(A^T)$。这直接源于“行秩等于列秩”的核心定理。 * 矩阵乘积的秩 (西尔维斯特不等式, Sylvester's Inequality):对于矩阵 $A$ ($m \times n$) 和 $B$ ($n \times p$),其乘积的秩满足: $$ \operatorname{rank}(A) + \operatorname{rank}(B) - n \le \operatorname{rank}(AB) \le \min(\operatorname{rank}(A), \operatorname{rank}(B)) $$ 这个不等式的右半部分尤其重要,它表明与另一个矩阵相乘不会增加原矩阵的秩。

## 秩与线性方程组

秩是理解线性方程组 $A\mathbf{x} = \mathbf{b}$ 解的结构的关键。这里 $A$ 是 $m \times n$ 的系数矩阵,$\mathbf{x}$ 是 $n \times 1$ 的未知向量,$\mathbf{b}$ 是 $m \times 1$ 的常数向量。

令 $[A|\mathbf{b}]$ 表示{{{增广矩阵}}}。根据 {{{罗奇-卡佩利定理}}} (Rouché–Capelli theorem)

1. 解的存在性:方程组有解(相容)的充分必要条件是系数矩阵的秩等于增广矩阵的秩,即 $\operatorname{rank}(A) = \operatorname{rank}([A|\mathbf{b}])$。 * 如果 $\operatorname{rank}(A) < \operatorname{rank}([A|\mathbf{b}])$,则方程组无解(不相容)。 2. 解的唯一性:如果方程组有解,即 $\operatorname{rank}(A) = \operatorname{rank}([A|\mathbf{b}]) = r$: * 如果 $r = n$ (秩等于未知数的个数),方程组有唯一解。 * 如果 $r < n$,方程组有无穷多解。此时,自由变量的个数为 $n - r$。

## 几何解释与秩-零度定理

从几何角度看,一个 $m \times n$ 的矩阵 $A$ 可以被看作是一个从 $n$ 维空间 $\mathbb{R}^n$ 到 $m$ 维空间 $\mathbb{R}^m$ 的{{{线性变换}}} $T(\mathbf{x}) = A\mathbf{x}$。

* 列空间 (Column Space)像 (Image):是所有可能的输出向量 $A\mathbf{x}$ 构成的集合,记作 $\operatorname{Im}(A)$ 或 $C(A)$。它是 $\mathbb{R}^m$ 的一个子空间。矩阵的秩正是这个子空间的维度,即 $\operatorname{rank}(A) = \dim(\operatorname{Im}(A))$。秩衡量了线性变换“压扁”输入空间后,输出空间的维度。 * 零空间 (Null Space)核 (Kernel):是被变换到零向量的所有输入向量 $\mathbf{x}$ 构成的集合,即 $N(A) = \{\mathbf{x} \in \mathbb{R}^n \mid A\mathbf{x} = \mathbf{0}\}$。它是 $\mathbb{R}^n$ 的一个子空间。零空间的维度被称为零度 (Nullity),记作 $\operatorname{nullity}(A)$。

这两个概念通过 {{{秩-零度定理}}} (Rank-Nullity Theorem) 紧密联系在一起: $$ \operatorname{rank}(A) + \operatorname{nullity}(A) = n $$ 其中 $n$ 是矩阵 $A$ 的列数(也即输入空间的维度)。 这个定理的直观解释是:输入空间的维度 ($n$),一部分通过变换形成了像空间(其维度为秩),另一部分则被“压扁”到零(构成了零空间,其维度为零度)。

## 在统计学与经济学中的应用

* {{{多重共线性}}} (Multicollinearity):在{{{回归分析}}}中,如果设计矩阵 $X$(包含了所有自变量的观测值)不是列满秩的,即 $\operatorname{rank}(X)$ 小于自变量的个数,就意味着存在完全多重共线性。此时,$(X'X)$ 矩阵是奇异的、不可逆的,导致{{{普通最小二乘法 (OLS)}}}的估计量无法计算。 * 模型{{{识别}}} (Identification):在{{{计量经济学}}}中,秩条件是参数识别的关键。例如,在{{{联立方程模型}}}中,一个结构方程可被识别的秩条件要求模型中其他方程所排除的变量,能够在该方程的系数矩阵中形成一个特定秩的子矩阵,从而保证该方程的独特性。 * {{{主成分分析}}} (Principal Component Analysis, PCA):PCA的目标是通过寻找数据中的主要变化方向来降低数据的维度。数据矩阵的秩决定了其内在的有效维度。低秩近似 (Low-rank approximation) 是PCA等降维技术的核心思想,它试图用一个秩较低的矩阵来近似原始数据矩阵,从而实现数据压缩和特征提取。