ARTICLE

线性概率模型

线性概率模型 (Linear Probability Model) 线性概率模型 (Linear Probability Model, LPM) 是最简单的二元选择模型,它直接使用普通最小二乘法 (OLS) 对取值为0或1的二元因变量进行线性回归。尽管LPM存在若干广为人知的计量经济学缺陷,但由于其解释直观、计算简便,在实证微观经济学研究中仍被广泛使用,并常

浏览 0 更新 2025-10-29

线性概率模型 (Linear Probability Model)

线性概率模型 (Linear Probability Model, LPM) 是最简单的二元选择模型,它直接使用普通最小二乘法 (OLS) 对取值为0或1的二元因变量进行线性回归。尽管LPM存在若干广为人知的计量经济学缺陷,但由于其解释直观、计算简便,在实证微观经济学研究中仍被广泛使用,并常作为Logit模型Probit模型的对比基准。

模型设定

在LPM中,二元因变量 Yi{0,1} Y_i \in \{0, 1\} 被直接建模为自变量的线性函数:

Yi=β0+β1X1i+β2X2i++βkXki+εi=Xiβ+εiY_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + \varepsilon_i = \mathbf{X}_i'\boldsymbol{\beta} + \varepsilon_i

由于 E(YiXi)=P(Yi=1Xi) E(Y_i \mid \mathbf{X}_i) = P(Y_i=1 \mid \mathbf{X}_i) ,LPM的核心解释方程为:

P(Yi=1Xi)=β0+β1X1i++βkXkiP(Y_i=1 \mid \mathbf{X}_i) = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki}

系数 βj \beta_j 的直接含义是:当 Xj X_j 增加一个单位,Y=1 Y=1 的概率变化 βj \beta_j (保持其他变量不变)。这种恒定边际效应是LPM相对于非线性模型最突出的优势——研究者无需额外计算边际效应或将其在不同自变量取值处进行平均。

LPM的主要优点

  1. 解释简单直观:系数直接以概率变化(百分点)为单位,无需借助优势比 (odds ratio) 或对边际效应取均值。面向政策制定者和非技术受众时,这种透明度具有重要沟通价值。
  2. 计算简便:OLS可在任何统计软件中瞬间完成,不需要最大似然估计 (MLE) 所依赖的迭代数值优化算法。在大数据场景或需大量Bootstrap迭代时,速度优势尤为突出。
  3. 系数可跨模型比较:同一LPM内各系数量级可直接对比;而在Logit/Probit中,由于不同模型潜变量的方差标度各异,系数不能简单横向比较。
  4. 固定效应易于纳入:在面板数据中,包含大量个体固定效应的LPM可通过组内变换或一阶差分轻松估计,而Logit/Probit的面板固定效应估计面临伴生参数问题 (incidental parameters problem),在短面板中尤为严重。
  5. 无需假设误差分布:OLS在大样本下的一致性不依赖于 εi \varepsilon_i 服从特定分布(正态或Logistic)。

LPM的三大缺陷

1. 预测概率可能越界 (Probability Bounds Violation)

这是LPM最广受批评的弱点。线性函数的值域为 (,+) (-\infty, +\infty) ,而概率必然位于 [0,1] [0, 1] 。因此LPM的拟合值 Y^i=Xiβ^ \hat{Y}_i = \mathbf{X}_i'\hat{\boldsymbol{\beta}} 可能小于0或大于1。当自变量取值范围很宽或存在极端观测值时,越界并不罕见。若研究目标是个体层面的概率预测(如信用评分),此问题致命;但若仅关心平均因果效应,该缺陷相对次要。

2. 固有的异方差性 (Heteroskedasticity)

对于二元变量 Yi Y_i ,其条件方差为:

Var(YiXi)=Pi(1Pi)\operatorname{Var}(Y_i \mid \mathbf{X}_i) = P_i(1-P_i)

其中 Pi=P(Yi=1Xi)=Xiβ P_i = P(Y_i=1 \mid \mathbf{X}_i) = \mathbf{X}_i'\boldsymbol{\beta} 。方差依赖于 Xi \mathbf{X}_i ,违反OLS的同方差性假设。后果是:OLS估计量仍无偏一致,但不再是最佳线性无偏估计量 (BLUE),标准误有偏,导致t检验F检验失效。

解决方案:使用异方差稳健标准误(Huber-White标准误),这是实证中最标准的处理方式。也可采用可行广义最小二乘法 (FGLS) 或下文所述的两阶段WLS。

3. 误差项非正态分布

给定 Xi \mathbf{X}_i 时,εi \varepsilon_i 只能取 1Xiβ 1 - \mathbf{X}_i'\boldsymbol{\beta} Xiβ -\mathbf{X}_i'\boldsymbol{\beta} 两个值,服从两点的伯努利型分布,绝非正态。基于正态性假设的小样本推断因此不准确。但在大样本下,由中心极限定理保证OLS估计量渐近正态,此问题在实践中通常不严重。

LPM与Logit/Probit的实证关系

大量蒙特卡洛研究和实证比较表明,在自变量均值附近,LPM估计的边际效应与Logit/Probit的平均边际效应 (AME) 通常十分接近。三者产生实质性分歧的情形包括:(1) 预测概率接近边界值0或1;(2) 数据包含极端异常值;(3) 模型拟合优度极低或极高。

Angrist与Pischke在Mostly Harmless Econometrics中主张:若主要目标是估计因果效应而非预测概率,LPM往往足够胜任,其简单、透明的优势不可忽视。若关注个体概率预测(如医学诊断、信用评分),则Logit/Probit更为适用。

两阶段WLS:一种实用修正

当越界问题较明显或希望提高估计效率时,可采用两阶段加权最小二乘法 (WLS):

  1. 第一阶段:用OLS估计LPM,得到拟合概率 P^i \hat{P}_i
  2. 对越界的 P^i \hat{P}_i 进行修剪(例如将小于0.01的设为0.01,大于0.99的设为0.99),确保权重分母不为零。
  3. 第二阶段:以 wi=1/[P^i(1P^i)] w_i = 1 / [\hat{P}_i(1-\hat{P}_i)] 为权重进行WLS估计。

该方法能有效缓解异方差问题,但修剪步骤引入了主观性,且WLS在大样本下相对于OLS加稳健标准误的效率增益通常有限。

总结

线性概率模型是二元选择建模中最朴素的工具。尽管存在预测概率越界、异方差和误差非正态等理论缺陷,其直观的系数解释、简便的计算以及对固定效应的友好处理使其在应用微观计量经济学中持续占据一席之地。现代实证研究的常见做法是同时报告LPM与Logit/Probit的结果:利用LPM的简洁性验证基本结论,再通过非线性模型确认函数形式假设不会从根本上改变研究发现。