ARTICLE

二元结果

二元结果 (Binary Outcome) 二元结果 (Binary Outcome),亦称二值结果、二分因变量 (Binary Dependent Variable) 或二元响应变量,是统计学、计量经济学和数据科学中的一个基本概念,指一个随机变量的取值空间仅包含两个互斥且完备的类别。这两个取值通常被编码为 0 和 1,或分别标记为"成功"与"失败"、"是"

浏览 4 更新 2025-10-30

二元结果 (Binary Outcome)

二元结果 (Binary Outcome),亦称二值结果二分因变量 (Binary Dependent Variable) 或二元响应变量,是统计学计量经济学数据科学中的一个基本概念,指一个随机变量的取值空间仅包含两个互斥且完备的类别。这两个取值通常被编码为 0 和 1,或分别标记为"成功"与"失败"、"是"与"否"、"事件发生"与"事件未发生"。

二元结果是伯努利试验的数学抽象,也是二元分类 (Binary Classification) 问题的核心对象。其简洁的二元结构在应用研究中极为普遍——贷款申请获批与否、患者存活与否、选民投票与否、合约违约与否、欺诈交易标记与否——几乎任何"是与否"的决策或状态均可形式化为二元结果。然而,正是其离散性使传统的线性回归模型在理论上和实践中都不适用,由此催生了专门的二元选择建模体系。

数学表示与概率结构

在数学上,一个二元结果由一个取值为 0 或 1 的指示变量(Indicator Variable,亦称虚拟变量Y Y 表示:

Y = \begin{cases}

1, \& 若事件发生(成功)\text{若事件发生(成功)} \\ 0, \& 若事件未发生(失败)\text{若事件未发生(失败)}

\end{cases}

该变量服从伯努利分布 Bernoulli(p) \text{Bernoulli}(p) ,其中唯一的参数 p=P(Y=1) p = P(Y=1) 即为事件发生的概率。伯努利分布的期望方差分别为:

E[Y]=p,Var(Y)=p(1p)E[Y] = p, \qquad \mathrm{Var}(Y) = p(1-p)

方差函数 p(1p) p(1-p) 揭示了二元结果的一个结构性特征:方差是概率 p p 的二次函数,在 p=0.5 p=0.5 时达到最大值 0.25 0.25 ,在 p0 p \to 0 p1 p \to 1 时趋近于零。这意味着二元数据的异方差性是内生的、不可避免的——方差不可能为常数,这从根本上否定了普通最小二乘法 (OLS) 的同方差假设。

当引入一组协变量 X=(X1,,Xk) X = (X_1, \dots, X_k) 后,关注的焦点从无条件概率转向条件概率 P(Y=1X) P(Y=1 \mid X) ,即给定自变量取值下事件发生的概率。建模任务由此变为:寻找一个函数 G() G(\cdot) ,将线性组合 Xβ=β0+β1X1++βkXk X\beta = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k 映射到 [0,1] [0, 1] 区间,即

P(Y=1X)=G(Xβ)P(Y=1 \mid X) = G(X\beta)

其中 G:R[0,1] G: \mathbb{R} \to [0, 1] 被称为连接函数 (Link Function) 或逆连接函数。不同的 G G 选择对应不同的二元选择模型。

为什么不直接用线性回归?

将二元结果 Y Y 直接对协变量做线性回归——即线性概率模型 (Linear Probability Model, LPM)——在历史上曾因其简便性和系数直接可解释为边际效应而被广泛采用,但存在三个根本性缺陷:

  1. 预测概率越界:LPM 的拟合值 Y^=Xβ^ \hat{Y} = X\hat{\beta} Xβ X\beta 的线性函数,值域是整个实数轴 R \mathbb{R} 。在 X X 的某些取值下,预测概率可能小于 0 或大于 1,这在概率论上是无意义的。当 X X 中包含连续变量或极端值时,这一问题是不可避免的。
  2. 结构性异方差:由 Var(YX)=P(Y=1X)[1P(Y=1X)] \mathrm{Var}(Y \mid X) = P(Y=1 \mid X) \cdot [1 - P(Y=1 \mid X)] 可知,误差项的方差随 X X 而变化。虽然可以使用稳健标准误 (Robust Standard Errors) 或加权最小二乘法 (WLS) 来修正统计推断,但 LPM 的预测值越界问题无法通过加权解决——这是模型设定本身的缺陷,而非仅仅估计效率的问题。
  3. 边际效应恒定性假设:LPM 假设每个自变量对概率的边际效应 P(Y=1X)/Xj=βj \partial P(Y=1 \mid X) / \partial X_j = \beta_j 是常数。但直觉上,当基线概率已接近 0 或 1 时,额外一个单位的变化理应产生的边际影响更小——个体行为存在"天花板"和"地板"效应。当从 0.50 增加到 0.55 和从 0.93 增加到 0.98 时,所需的自变量变化幅度应当不同。

这些缺陷在样本量大、自变量变异充分的中等概率区域可能影响有限(LPM 仍因其简洁而在某些应用经济学领域被保留),但在概率接近边界值、样本量有限或需要进行精确概率预测时,非线性模型不可替代。

主流建模框架

现代计量经济学和统计学为二元结果提供了两类互补的非线性建模策略,二者均属于广义线性模型 (GLM) 框架下二项分布族的成员:

Logit模型 (Logistic Regression):以逻辑斯蒂函数 (Logistic Function) 作为连接函数,

P(Y=1X)=exp(Xβ)1+exp(Xβ)=Λ(Xβ)P(Y=1 \mid X) = \frac{\exp(X\beta)}{1 + \exp(X\beta)} = \Lambda(X\beta)

Logit 模型的核心优势在于其系数通过优势比 (Odds Ratio, OR) 具有直接且优雅的解释:exp(βj) \exp(\beta_j) 即为控制其他协变量后,Xj X_j 每增加一个单位所对应的优势比。优势定义为 P/(1P) P/(1-P) ,即事件发生概率与不发生概率之比。Logit 模型假设对数优势 (Log-Odds) 与 X X 呈线性关系:ln[P/(1P)]=Xβ \ln[P/(1-P)] = X\beta 。这一性质使 Logit 在医学、流行病学和公共卫生研究中尤为流行。

Probit模型:以标准正态累积分布函数 Φ() \Phi(\cdot) 作为连接函数,

P(Y=1X)=Φ(Xβ)=Xβ12πet2/2dtP(Y=1 \mid X) = \Phi(X\beta) = \int_{-\infty}^{X\beta} \frac{1}{\sqrt{2\pi}} e^{-t^2/2} \, dt

Probit 模型可通过潜变量 (Latent Variable) 框架得到深刻的理论解释:假设存在一个不可观测的连续潜变量 Y=Xβ+ε Y^* = X\beta + \varepsilon ,其中 εN(0,1) \varepsilon \sim N(0, 1) ,我们仅观测到其阈值截断 Y=1(Y>0) Y = \mathbf{1}(Y^* > 0) 。这一框架与经济学中的随机效用模型 (Random Utility Model) 天然衔接——个体在两种选择间进行比较,选择效用更高的选项。因此 Probit 在微观计量经济学(劳动力参与、购买决策、政策采纳)中具有强大的理论亲和力。

在实践中,Logit 和 Probit 的预测概率高度一致(相关系数通常超过 0.99),系数符号和统计显著性几乎相同。两者的区别在于:(1) Logit 的尾部比 Probit 略厚,这意味着在极端概率处 Logit 赋予略微更大的概率质量;(2) 系数量纲不同——Logit 系数约为 Probit 系数的 1.6--1.8 倍(因逻辑斯蒂分布方差为 π2/3 \pi^2/3 ,而标准正态方差为 1)。选择哪个模型往往是学科惯例问题:经济学偏好 Probit,生物医学偏好 Logit,而机器学习领域广泛使用以 Logit 为基础的逻辑斯蒂回归

边际效应与解释

在非线性二元选择模型中,回归系数 βj \beta_j 本身并不直接等于自变量对概率的边际效应。边际效应为:

P(Y=1X)Xj=g(Xβ)βj\frac{\partial P(Y=1 \mid X)}{\partial X_j} = g(X\beta) \cdot \beta_j

其中 g() g(\cdot) 是连接函数 G() G(\cdot) 的导数(概率密度函数)。边际效应的大小取决于 X X 的取值——通常在 P=0.5 P=0.5 处边际效应最大,向两端递减。实践中常报告平均边际效应 (Average Marginal Effect, AME) 或均值处的边际效应 (Marginal Effect at the Mean, MEM)。

延伸与前沿

二元结果建模在现代实证研究中持续演进,衍生出丰富的扩展:

雅各布·伯努利在 17 世纪对二元随机试验的首次形式化分析,到当代面向高维数据的二元分类器和因果推断框架,二元结果始终是连接概率论基础、统计推断和实证决策科学的核心概念。深刻理解其数学结构、局限和建模策略,是掌握定量社会科学与数据科学方法的必要前提。