知经 KNOWECON · 卓越的经济金融统计数学学习平台

Probit模型

# Probit模型 (Probit Model)

Probit模型 (Probit Model) 是一种广泛应用于{{{统计学}}}、{{{计量经济学}}}以及其他社会科学领域的{{{回归分析}}}模型。它属于一类被称为 {{{二元选择模型}}} (Binary Choice Model) 的模型,专门用于处理{{{因变量}}} (Dependent Variable) 是一个{{{二元变量}}}(或称虚拟变量)的情况,即其取值只能是0或1。

例如,在经济学研究中,我们可能想分析以下问题: * 一个消费者是否决定购买一辆汽车(是=1,否=0) * 一个家庭是否拖欠抵押贷款(是=1,否=0) * 一个人是否加入劳动力市场(是=1,否=0)

在这些情况下,使用传统的{{{线性回归模型}}}(如{{{普通最小二乘法}}})是不合适的,因为它可能预测出小于0或大于1的概率,这在逻辑上是矛盾的。Probit模型通过引入一个非线性的概率结构,确保预测值始终在 $[0, 1]$ 区间内,从而解决了这个问题。

## 理论基础:潜变量框架 (Latent Variable Framework)

理解Probit模型的核心在于 {{{潜变量}}} (Latent Variable) 的概念。潜变量是一个理论上存在但无法被直接观测到的连续变量。我们假设这个潜变量 $y_i^*$ 决定了我们最终能观测到的二元结果 $y_i$。

其基本逻辑是:当这个潜变量超过某个阈值时,我们观测到的结果就为1;否则,结果为0。

数学上,我们可以这样设定潜变量模型: $$ y_i^* = \mathbf{x}'_i\beta + \varepsilon_i $$

其中: * $y_i^*$ 是第 $i$ 个观测个体的潜变量(例如,购买汽车的“净效用”或“倾向性”)。 * $\mathbf{x}_i$ 是一个包含所有{{{自变量}}} (Independent Variables) 的向量,例如个体的收入、年龄、家庭规模等。 * $\beta$ 是待估计的{{{参数向量}}},反映了各自变量对潜变量的影响。 * $\varepsilon_i$ 是{{{随机扰动项}}},代表了所有未被模型包含的、影响 $y_i^*$ 的因素。

Probit模型的关键假设是,这个扰动项 $\varepsilon_i$ 服从 {{{标准正态分布}}} (Standard Normal Distribution),即 $\varepsilon_i \sim N(0, 1)$。这意味着其{{{期望}}}为0,{{{方差}}}为1。

接下来,我们将潜变量 $y_i^*$ 与可观测的二元变量 $y_i$ 联系起来。为了简化,我们将决策阈值设为0: $$ y_i = \begin{cases} 1 & \text{if } y_i^* > 0 \\ 0 & \text{if } y_i^* \le 0 \end{cases} $$ 这个设定意味着,当购买汽车的净效用 $y_i^*$ 大于0时,我们就会观察到购买行为 ($y_i=1$);反之则不购买 ($y_i=0$)。

## Probit概率的推导

基于以上设定,我们可以推导出在给定自变量 $\mathbf{x}_i$ 的条件下,$y_i=1$ 的{{{条件概率}}}。

$P(y_i = 1 | \mathbf{x}_i) = P(y_i^* > 0 | \mathbf{x}_i)$ 将潜变量的表达式代入,得到: $P(y_i = 1 | \mathbf{x}_i) = P(\mathbf{x}'_i\beta + \varepsilon_i > 0 | \mathbf{x}_i)$ 移项后: $P(y_i = 1 | \mathbf{x}_i) = P(\varepsilon_i > -\mathbf{x}'_i\beta | \mathbf{x}_i)$

由于正态分布是对称的,即 $P(\varepsilon_i > -z) = P(\varepsilon_i \le z)$,因此: $P(y_i = 1 | \mathbf{x}_i) = P(\varepsilon_i \le \mathbf{x}'_i\beta | \mathbf{x}_i)$

这个表达式正是标准正态分布的 {{{累积分布函数}}} (Cumulative Distribution Function, CDF) 的定义。我们通常用大写的希腊字母 $\Phi$ (Phi) 来表示标准正态分布的CDF。因此,Probit模型的核心方程可以写为:

$$ P(y_i = 1 | \mathbf{x}_i) = \Phi(\mathbf{x}'_i\beta) $$

由于概率之和为1,那么 $y_i=0$ 的概率就是: $$ P(y_i = 0 | \mathbf{x}_i) = 1 - \Phi(\mathbf{x}'_i\beta) $$

$\Phi(z)$ 的函数图像是一条“S”形曲线,它将线性部分 $\mathbf{x}'_i\beta$ (其取值范围是 $(-\infty, +\infty)$)映射到了 $(0, 1)$ 区间,完美地满足了概率的定义。

## 模型估计:最大似然估计

与线性回归模型使用{{{OLS}}}不同,Probit模型的参数 $\beta$ 是通过 {{{最大似然估计}}} (Maximum Likelihood Estimation, MLE) 的方法来估计的。

MLE的基本思想是:找到一组参数 $\hat{\beta}$,使得我们观测到的样本数据出现的概率最大化。

对于单个观测值 $i$,其{{{似然函数}}}可以统一写成: $$ L_i(\beta) = [P(y_i=1|\mathbf{x}_i)]^{y_i} [P(y_i=0|\mathbf{x}_i)]^{1-y_i} $$ 代入Probit的概率表达式: $$ L_i(\beta) = [\Phi(\mathbf{x}'_i\beta)]^{y_i} [1 - \Phi(\mathbf{x}'_i\beta)]^{1-y_i} $$

对于一个包含 $n$ 个独立观测值的样本,总的似然函数是所有单个似然函数的乘积。为了计算方便,我们通常最大化其对数形式,即 {{{对数似然函数}}} (Log-Likelihood Function): $$ \mathcal{L}(\beta) = \sum_{i=1}^{n} \ln(L_i(\beta)) = \sum_{i=1}^{n} \left\{ y_i \ln[\Phi(\mathbf{x}'_i\beta)] + (1-y_i) \ln[1 - \Phi(\mathbf{x}'_i\beta)] \right\} $$

由于这个函数是非线性的,没有解析解,因此需要通过计算机使用数值优化算法(如牛顿-拉夫逊法)来找到使 $\mathcal{L}(\beta)$ 达到最大值的 $\hat{\beta}$。

## 系数的解释:边际效应

在Probit模型中,直接解释系数 $\beta_k$ 的大小是困难且容易误导的。$\beta_k$ 仅仅表示当其他变量不变时,$x_k$ 的增加对潜变量 $y^*$ 的影响。它的符号是明确的: * 如果 $\beta_k > 0$,意味着 $x_k$ 增加会提高 $y_i=1$ 的概率。 * 如果 $\beta_k < 0$,意味着 $x_k$ 增加会降低 $y_i=1$ 的概率。

要得到 $x_k$ 对最终概率 $P(y_i=1 | \mathbf{x}_i)$ 的影响,我们需要计算 {{{边际效应}}} (Marginal Effect),即概率对 $x_k$ 的偏导数:

$$ \frac{\partial P(y_i=1|\mathbf{x}_i)}{\partial x_{ik}} = \frac{\partial \Phi(\mathbf{x}'_i\beta)}{\partial x_{ik}} $$

根据链式法则,我们得到: $$ \frac{\partial P(y_i=1|\mathbf{x}_i)}{\partial x_{ik}} = \phi(\mathbf{x}'_i\beta) \cdot \beta_k $$

这里,$\phi(\cdot)$ 是标准正态分布的 {{{概率密度函数}}} (Probability Density Function, PDF)。这个公式揭示了Probit模型的一个重要特性:$x_k$ 的边际效应 不是一个常数,它的大小取决于所有自变量 $\mathbf{x}_i$ 的取值。这与线性模型中边际效应等于系数本身(常数)有本质区别。

在实证分析中,通常会报告以下两种边际效应: 1. 均值处的边际效应 (Marginal Effect at the Mean, MEM):将所有自变量 $\mathbf{x}$ 的值取为其样本均值 $\bar{\mathbf{x}}$,然后计算边际效应:$\phi(\bar{\mathbf{x}}'\hat{\beta}) \cdot \hat{\beta}_k$。 2. 平均边际效应 (Average Marginal Effect, AME):为样本中的每一个个体计算其特定的边际效应 $\phi(\mathbf{x}'_i\hat{\beta}) \cdot \hat{\beta}_k$,然后计算所有这些边际效应的样本平均值。AME通常被认为是更好的度量方式,因为它反映了样本整体的平均影响。

对于{{{虚拟变量}}},其边际效应通常通过计算该变量从0变为1时,概率的离散变化量来得到。

## 与其他模型的比较

* Probit vs. {{{Logit模型}}}:Logit模型是另一个常用的二元选择模型。它与Probit模型非常相似,唯一的区别在于它假设潜变量的扰动项 $\varepsilon_i$ 服从{{{逻辑斯谛分布}}} (Logistic Distribution) 而不是正态分布。逻辑斯谛分布的CDF比正态分布的CDF尾部更“厚”一些。在实践中,两种模型估计出的边际效应通常非常接近,选择哪一个往往取决于学科传统或个人偏好。 * Probit vs. {{{线性概率模型}}} (Linear Probability Model, LPM):LPM直接用OLS对 $y_i = \mathbf{x}'_i\beta + \varepsilon_i$ 进行回归。虽然简单,但LPM有三大缺陷:(1) 预测的概率可能超出 $[0, 1]$ 范围;(2) 边际效应恒定不变,不符合现实;(3) 扰动项存在固有的{{{异方差性}}}。Probit模型通过其非线性结构克服了所有这些问题。