ARTICLE

完全多重共线性

完全多重共线性 (Perfect Multicollinearity) 完全多重共线性 (Perfect Multicollinearity) 是计量经济学和统计学中线性回归模型的一个重要概念。它描述的是一种特殊的数据情况，即模型中的某一个自变量 (explanatory variable) 可以被一个或多个其他自变量（包括截距项）通过一个完美的线性关系所表

浏览 83 更新 2025-10-26

完全多重共线性 (Perfect Multicollinearity)

完全多重共线性 (Perfect Multicollinearity) 是计量经济学和统计学中线性回归模型的一个重要概念。它描述的是一种特殊的数据情况，即模型中的某一个自变量 (explanatory variable) 可以被一个或多个其他自变量（包括截距项）通过一个完美的线性关系所表示。

当完全多重共线性存在时，最小二乘法 (Ordinary Least Squares, OLS) 的估计量将无法被唯一定义，导致回归模型无法得到一个有意义的解。

数学定义与表达

在一个标准的多元线性回归模型中：

Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \ldots + \beta_k X_{ik} + u_i

其中， $Y_i$ 是因变量， $X_{ij}$ 是第 $i$ 个观测值的第 $j$ 个自变量， $\beta_j$ 是待估计的回归系数， $u_i$ 是扰动项。

完全多重共线性意味着，存在一组不全为零的常数 $\lambda_0, \lambda_1, \ldots, \lambda_k$ ，使得对于所有观测值 $i$ ，以下线性关系恒成立：

\lambda_0 + \lambda_1 X_{i1} + \lambda_2 X_{i2} + \ldots + \lambda_k X_{ik} = 0

这个等式表明，至少有一个自变量是其他自变量的精确线性函数。最简单的形式是两个变量之间存在完美线性关系：

X_2 = a + bX_1

其中 $a$ 和 $b$ 是常数。

矩阵视角下的解释

在线性回归的矩阵表示中，模型写为 $Y = X\beta + u$ 。其中 $X$ 是一个 $n \times (k+1)$ 的设计矩阵，包含了截距项的列（通常是一列全为 $1$ 的向量）和所有自变量的观测值。

X = \begin{bmatrix}

1 \& $X_{11}$ \& \cdots \& $X_{1k}$ \\ 1 \& $X_{21}$ \& \cdots \& $X_{2k}$ \\ \vdots \& \vdots \& \ddots \& \vdots \\ 1 \& $X_{n1}$ \& \cdots \& $X_{nk}$

\end{bmatrix}

完全多重共线性的存在意味着 $X$ 矩阵的列向量是线性相关的。这导致 $X$ 矩阵的秩 (rank) 小于其列数 $k+1$ ，即 $\operatorname{rank}(X) < k+1$ 。

在求解 OLS 估计量 $\hat{\beta} = (X'X)^{-1}X'Y$ 时，这个性质是致命的。如果 $X$ 是列不满秩的，那么矩阵 $X'X$ 就是一个奇异矩阵 (singular matrix)，其行列式为零，即 $|X'X| = 0$ 。奇异矩阵是不可逆的，因此 $(X'X)^{-1}$ 不存在。

完全多重共线性的后果

OLS 估计量的不确定性 (Indeterminacy of OLS Estimators)

最核心的后果是，我们无法得到唯一的 OLS 估计系数。由于 $(X'X)^{-1}$ 不存在，OLS 的求解公式失效。在代数上，这意味着求解系数的正规方程组 (Normal Equations) $X'X\hat{\beta} = X'Y$ 有无穷多组解，而不是唯一的解。

例如，假设模型为 $Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + u$ ，并且存在完全多重共线性 $X_2 = 2X_1$ 。我们可以将模型进行代换：

Y = \beta_0 + \beta_1 X_1 + \beta_2 (2X_1) + u = \beta_0 + (\beta_1 + 2\beta_2) X_1 + u

令 $\gamma_1 = \beta_1 + 2\beta_2$ 。我们可以唯一地估计出 $\beta_0$ 和 $\gamma_1$ 。但是，对于任何一个估计出的 $\hat{\gamma}_1$ ，有无穷多对 $(\hat{\beta}_1, \hat{\beta}_2)$ 满足 $\hat{\gamma}_1 = \hat{\beta}_1 + 2\hat{\beta}_2$ 。例如，如果 $\hat{\gamma}_1 = 5$ ，那么 $(\hat{\beta}_1=5, \hat{\beta}_2=0)$ 、 $(\hat{\beta}_1=3, \hat{\beta}_2=1)$ 和 $(\hat{\beta}_1=1, \hat{\beta}_2=2)$ 都是有效的解。

因此，我们无法区分 $X_1$ 和 $X_2$ 各自对 $Y$ 的独立影响。任何试图解释 $\beta_1$ 为"在保持 $X_2$ 不变的情况下， $X_1$ 变化一个单位对 $Y$ 的影响"都是无意义的，因为根据 $X_2 = 2X_1$ 的关系， $X_1$ 变化时 $X_2$ 必然会随之变化。

统计软件的处理

大多数现代统计软件（如 R、Stata、Python 的 \texttt{statsmodels}）能够自动检测到完全多重共线性。它们通常会采取以下措施：

报告错误：程序无法继续运行，并提示存在共线性问题。
自动丢弃变量：软件会自动从模型中移除一个或多个导致共线性的变量，然后对余下的变量进行回归。输出结果中通常会注明某个变量因共线性而被省略。

产生完全多重共线性的常见原因

完全多重共线性通常不是由数据本身的内在特性引起的，而是由模型设定错误造成的。

虚拟变量陷阱 (Dummy Variable Trap)

这是最经典的例子。当为具有 $m$ 个互斥类别的分类变量创建虚拟变量 (Dummy Variables) 时，如果将所有 $m$ 个虚拟变量都放入包含截距项的模型中，就会发生完全多重共线性。

例如，一个变量"地区"有三个类别：东部、中部、西部。我们创建三个虚拟变量：

$D_{\text{east}} = 1$ 如果地区是东部，否则为 $0$ 。
$D_{\text{central}} = 1$ 如果地区是中部，否则为 $0$ 。
$D_{\text{west}} = 1$ 如果地区是西部，否则为 $0$ 。

对于任何一个观测值，这三个虚拟变量的和恒为 $1$ ： $D_{\text{east}} + D_{\text{central}} + D_{\text{west}} = 1$ 。如果模型中包含截距项（其对应的"变量"是一个恒为 $1$ 的向量），那么就构成了完全多重共线性，因为截距项可以被这三个虚拟变量的线性组合完美表示。

解决方法：在包含截距项的模型中，只引入 $m-1$ 个虚拟变量。被省略的那个类别成为基准组 (base category)，所有其他虚拟变量的系数都解释为相对于该基准组的差异。

包含由其他变量计算得出的变量

在模型中同时包含了一些本身具有精确数学关系的变量：

例如，在研究家庭消费时，将收入 (\texttt{income})、支出 (\texttt{expenditure}) 和储蓄 (\texttt{savings}) 同时作为自变量。如果数据中严格满足 $\text{income} = \text{expenditure} + \text{savings}$ ，那么就会出现完全多重共线性。
又如，将一个变量的不同单位形式同时放入模型，比如同时包含以千克 (\texttt{weight\_kg}) 和磅 (\texttt{weight\_lb}) 为单位的体重，因为它们之间存在恒定的线性关系 $\text{weight_lb} = 2.2046 \times \text{weight_kg}$ 。

与不完全多重共线性的区别

需要严格区分完全多重共线性和不完全多重共线性 (Imperfect Multicollinearity)，后者在实践中更为常见。

定义：完全多重共线性指自变量间存在精确的线性关系；不完全多重共线性指自变量间存在高度但非精确的线性关系。
数学表达：完全多重共线性下 $\operatorname{corr}(X_j, X_k) = \pm 1$ （两个变量的情况）；不完全多重共线性下相关系数接近 $\pm 1$ 但不等于。
$(X'X)$ 矩阵：完全多重共线性下矩阵奇异、不可逆；不完全多重共线性下矩阵近似奇异，但仍可逆。
后果：完全多重共线性下 OLS 估计量无法确定；不完全多重共线性下 OLS 估计量可以唯一确定，但其方差和标准误会变得非常大。
OLS 性质：完全多重共线性下 OLS 估计量不存在；不完全多重共线性下 OLS 估计量仍然是BLUE（最佳线性无偏估计量），但估计的精度很低。
解决方法：完全多重共线性必须通过修正模型设定来解决（如移除冗余变量）；不完全多重共线性没有唯一的解决方法，可能需要收集更多数据、重新设定模型或使用岭回归等替代方法。其严重程度通过方差膨胀因子 (VIF) 来衡量。

总之，完全多重共线性是一个模型设定问题，其后果是致命的（无法估计），但其识别和解决都相对直接。研究者必须确保模型设定在逻辑上是合理的，以避免此类问题的发生。理解完全多重共线性与不完全多重共线性的本质区别，对于正确构建计量经济模型和合理解读回归结果至关重要。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。