ARTICLE
无完全共线性
无完全共线性 定义 无完全共线性(No Perfect Multicollinearity)是经典线性回归模型中 Gauss-Markov 定理的第四项基本假定。该假定要求:在样本中,没有一个自变量是其他自变量的精确线性组合,即不存在一组不全为零的常数 c_0, c_1, , c_k 使得对所有观测 i = 1, , n 均有: 若上述关系成立,则称解释变量
无完全共线性
定义
无完全共线性(No Perfect Multicollinearity)是经典线性回归模型中 Gauss-Markov 定理的第四项基本假定。该假定要求:在样本中,没有一个自变量是其他自变量的精确线性组合,即不存在一组不全为零的常数 使得对所有观测 均有:
若上述关系成立,则称解释变量之间存在完全共线性(perfect multicollinearity)。此时普通最小二乘估计量(OLS)无法唯一确定。
需注意区分两个相关但不同的概念:
| 概念 | 含义 | 后果 | |------|------|------| | 完全共线性 | 一个自变量恰好是其他自变量的线性组合 | OLS 无法计算, 不可逆 | | 不完全共线性(高度共线性) | 自变量之间高度相关但非精确线性关系 | OLS 仍可计算,但方差膨胀,估计不稳定 |
无完全共线性只排除精确线性关系,允许变量之间存在任何程度的相关——只要不是完全线性依赖即可。
数学原理
记线性回归模型为 ,其中 是 设计矩阵(含截距列)。OLS 估计量为:
该表达式要求 可逆。当存在完全共线性时, 不满列秩(),导致 奇异(行列式为零),无法求逆。直观上,此时数据无法区分某些参数——在最小化残差平方和 时,存在无穷多组参数给出完全相同的拟合值。
令 ,则模型中有 个线性依赖关系。只有 个参数可识别,其余参数必须施加约束才能估计。
典型场景
1. 虚拟变量陷阱
最经典也最常见的完全共线性来源。对具有 个类别的定性变量,若同时引入 个类别虚拟变量且保留截距项,则产生共线性:
其中 是第 个类别的虚拟变量, 是全 1 向量。解决方案是只引入 个虚拟变量(以某一类别为基准组),或引入全部 个但去掉截距项。
2. 变量是其他变量的线性变换
- 比率与分母同现:模型中同时包含 、 和 三项,在某些样本下 可能通过乘法关系与 产生精确关系(如 恒为常数时)
- 恒等式约束:若 (如总收入 = 工资收入 + 财产收入),三个变量同时进入模型即产生完全共线性
- 标准化冗余:同时纳入某变量的原始值和其标准化值(两者仅差一个线性变换)
3. 样本量不足
当观测数 小于待估参数个数 时, 必然奇异——这是完全共线性的一种极端情形。这在高维数据()中尤其常见。
4. 趋势变量与周期性变量
时间序列中同时包含线性趋势 、二次趋势 和一组完全共周期的季节虚拟变量时,可能在某些特定样本期产生近似或精确的线性依赖。
与高斯-马尔科夫定理的关系
无完全共线性是 Gauss-Markov 定理的第四个假定(前三个为线性于参数、随机抽样、零条件均值)。前三个假定保证 OLS 的无偏性(),无完全共线性则进一步保证 OLS 估计量存在且唯一。
值得注意的是,该假定是唯一一个可事前检验和保证的假定——研究者可以通过检查设计矩阵的秩、方差膨胀因子(VIF)等手段在估计前确认。相比之下,零条件均值假定 本质上不可检验。
不完全共线性下的估计性质
完全共线性虽然罕见(常常是设定错误),但不完全共线性(解释变量高度相关但仍非线性依赖)才是实证研究中更常遇到的问题。此时 OLS 仍是无偏的,但:
- 估计量的方差膨胀:
- 其中 是将 对其他自变量回归的拟合优度, 称为方差膨胀因子(VIF)
- 时,VIF ,估计量极不稳定
Woodridge 指出,OLS 的无偏性从不依赖于共线性程度——即使 VIF 极高, 的期望值仍是 。但高方差使单一估计值远离真值的概率增大,且标准误膨胀导致 统计量变小,可能错误地"接受"零假设。
检测方法
方差膨胀因子
经验法则:(即 )时认为存在值得关注的共线性问题。
条件数
计算 的特征值并按降序排列 ,定义条件数:
通常被视为中度至严重的共线性信号。
相关系数矩阵
初步筛查可检查自变量两两相关系数。但需注意:两两相关系数低并不意味着不存在共线性(可能是三个或更多变量之间的多重线性关系)。
处置策略
- 重新设定模型:思考变量间的经济逻辑,移除冗余变量或合并为复合指标
- 增加样本量:更多观测能降低共线性程度(但无法解决完全共线性)
- 变量变换:取差分、比率或其他非线性变换可能打破线性依赖
- 降维技术:主成分回归(PCR)、偏最小二乘法(PLS)等将高维相关变量投影到低维正交空间
- 岭回归:在 对角线上加一个正数 使其可逆——以引入微小偏差为代价换取方差的大幅降低
- 不做处理:若研究目标仅是预测(而非推断特定系数),且共线性模式在预测期保持不变,OLS 的预测仍是最优线性无偏预测
小结
无完全共线性是保证 OLS 估计量存在且唯一的技术性条件。它与"自变量之间不能有任何相关"这一常见误解不同——它在数学上仅排除精确线性依赖,在实践中则指向合理的模型设定。真正需要警惕的是高度但不完全的共线性,它虽不破坏无偏性,却通过方差膨胀削弱统计推断的可靠性。该假定的核心启示在于:回归分析中,参数的可识别性先于可估计性,而可识别性的最低条件就是设计矩阵满列秩。