知经 KNOWECON · 卓越的经济金融统计数学学习平台

指数族分布

# 指数族分布 (Exponential Family)

指数族分布 (Exponential Family) 是一个在{{{概率论}}}、{{{统计学}}}和{{{机器学习}}}中具有核心地位的{{{概率分布}}}集合。它不是指某一个具体的分布,而是指一大类可以用一种特定数学形式表达的分布。这种统一的表达形式使得研究它们的共性、推导通用算法成为可能。许多常见的概率分布,如{{{正态分布}}}、{{{伯努利分布}}}、{{{二项分布}}}、{{{泊松分布}}}、{{{伽马分布}}}、{{{指数分布}}}等,都是指数族分布的特例。

理解指数族分布对于学习{{{广义线性模型}}} (Generalized Linear Models, GLMs)、{{{变分推断}}} (Variational Inference) 以及现代统计推断方法至关重要。

## 标准形式 (Canonical Form)

一个{{{随机变量}}} $y$ 的概率分布如果可以写成以下形式,就被称为属于指数族分布:

$$ p(y | \eta) = h(y) \exp(\eta^T T(y) - A(\eta)) $$

让我们来详细解读这个公式中的每一个组成部分:

* $y$:表示随机变量的观测值。它可以是标量或向量。 * $\eta$ (eta):称为自然参数 (Natural Parameter)典则参数 (Canonical Parameter)。它是一个参数(或参数向量),通过它来刻画这个分布。 * $T(y)$:称为充分统计量 (Sufficient Statistic)。它是一个(或一组)关于观测值 $y$ 的函数。顾名思义,它包含了从数据中估计参数 $\eta$ 所需的全部信息。 * $h(y)$:称为底层基准度量 (Base Measure)底层密度 (Underlying Measure)。它是一个只与 $y$ 有关的非负函数。 * $A(\eta)$:称为对数配分函数 (Log-Partition Function)累积量生成函数 (Cumulant Generating Function)。它是一个只与自然参数 $\eta$ 有关的函数,其主要作用是确保整个概率分布的积分(对于连续变量)或求和(对于离散变量)为1,即起到归一化的作用。

对数配分函数 $A(\eta)$ 的定义如下,以保证 $p(y|\eta)$ 是一个合法的概率分布: $$ A(\eta) = \log \int h(y) \exp(\eta^T T(y)) \, dy $$ (对于离散分布,积分符号 $\int$ 替换为求和符号 $\sum$)

## 指数族分布的成员

为了更好地理解这个抽象的定义,我们来看几个具体的例子,展示如何将常见的分布转化为指数族的标准形式。

### 示例一:伯努利分布 (Bernoulli Distribution)

{{{伯努利分布}}}用于描述单次试验的成功或失败,其{{{概率质量函数}}} (PMF) 为: $$ p(y | \phi) = \phi^y (1-\phi)^{1-y} \quad \text{其中 } y \in \{0, 1\} $$ 这里,$\phi$ 是试验成功的概率。为了将其转化为指数族形式,我们对上式进行代数变换: $$ \begin{align*} p(y | \phi) &= \exp\left( \log(\phi^y (1-\phi)^{1-y}) \right) \\ &= \exp\left( y \log \phi + (1-y) \log(1-\phi) \right) \\ &= \exp\left( y \log \phi + \log(1-\phi) - y \log(1-\phi) \right) \\ &= \exp\left( y \log\left(\frac{\phi}{1-\phi}\right) + \log(1-\phi) \right) \end{align*} $$ 现在,我们可以将这个形式与标准形式 $p(y | \eta) = h(y) \exp(\eta T(y) - A(\eta))$ 进行对比(这里是标量情况):

* 自然参数 $\eta$:$\eta = \log\left(\frac{\phi}{1-\phi}\right)$。这个变换是著名的 {{{logit}}} 函数。 * 充分统计量 $T(y)$:$T(y) = y$。 * 底层基准度量 $h(y)$:$h(y) = 1$。 * 对数配分函数 $A(\eta)$:$A(\eta) = -\log(1-\phi)$。我们需要将其表达为 $\eta$ 的函数。从 $\eta$ 的定义可以反解出 $\phi = \frac{1}{1+e^{-\eta}}$ (即 {{{sigmoid}}} 函数),代入可得: $$ A(\eta) = -\log\left(1 - \frac{1}{1+e^{-\eta}}\right) = -\log\left(\frac{e^{-\eta}}{1+e^{-\eta}}\right) = \log(1+e^\eta) $$ 因此,伯努利分布是指数族的一员。

### 示例二:高斯分布 (Gaussian Distribution)

我们考虑一个方差 $\sigma^2=1$ 的{{{高斯分布}}},其{{{概率密度函数}}} (PDF) 为: $$ p(y | \mu) = \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{1}{2}(y-\mu)^2 \right) $$ 进行变换: $$ \begin{align*} p(y | \mu) &= \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{1}{2}(y^2 - 2y\mu + \mu^2) \right) \\ &= \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{y^2}{2} \right) \exp\left( y\mu - \frac{\mu^2}{2} \right) \end{align*} $$ 与标准形式对比: * 自然参数 $\eta$:$\eta = \mu$。 * 充分统计量 $T(y)$:$T(y) = y$。 * 底层基准度量 $h(y)$:$h(y) = \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{y^2}{2} \right)$。 * 对数配分函数 $A(\eta)$:$A(\eta) = \frac{\mu^2}{2} = \frac{\eta^2}{2}$。

如果方差 $\sigma^2$ 也被视为参数,那么自然参数 $\eta$ 和充分统计量 $T(y)$ 都会是二维向量。

## 指数族分布的核心性质

将分布统一到指数族框架下,是因为它们共享一些非常优美的数学性质,这些性质在统计推断和模型构建中极为有用。

1. 对数配分函数的导数与矩 (Derivatives of Log-Partition Function and Moments)

$A(\eta)$ 的一个惊人特性是,它的导数可以用来生成充分统计量 $T(y)$ 的各阶{{{矩}}}。 * 一阶导数是期望:$A(\eta)$ 对 $\eta$ 的梯度等于 $T(y)$ 的{{{期望}}}。 $$ \nabla_{\eta} A(\eta) = \mathbb{E}[T(y) | \eta] $$ * 二阶导数是方差:$A(\eta)$ 对 $\eta$ 的二阶导数(即{{{Hessian矩阵}}})等于 $T(y)$ 的{{{方差-协方差矩阵}}}。 $$ \nabla_{\eta}^2 A(\eta) = \text{Cov}[T(y) | \eta] $$ 这个性质提供了一种计算分布矩的便捷方法,只需对 $A(\eta)$ 求导即可。

2. 凸性 (Convexity)

对数配分函数 $A(\eta)$ 是一个关于自然参数 $\eta$ 的{{{凸函数}}}。这是因为它的二阶导数是协方差矩阵,而协方差矩阵是{{{半正定矩阵}}}。 这个凸性对于优化问题至关重要。在进行{{{最大似然估计}}} (Maximum Likelihood Estimation, MLE) 时,对数似然函数通常是凹函数(对于自然参数 $\eta$),这意味着存在唯一的全局最优解,使得参数估计变得简单且可靠。

3. 共轭先验 (Conjugate Priors)

在{{{贝叶斯统计}}}中,如果{{{先验分布}}}和{{{后验分布}}}属于同一分布族,则称该先验分布为{{{似然函数}}}的{{{共轭先验}}}。指数族分布的一个重要优点是,对于任何一个指数族似然函数,都存在一个形式相似的共轭先验。这极大地简化了贝叶斯推断中后验分布的计算。

## 在广义线性模型 (GLM) 中的应用

指数族分布是构建{{{广义线性模型}}} (GLM) 的理论基石。GLM 将传统的{{{线性模型}}}扩展到响应变量不服从高斯分布的情况(例如,计数数据或二元数据)。

一个GLM包含三个要素: 1. 随机成分:假设响应变量 $Y$ 的分布属于指数族分布。 2. 系统成分:一个线性预测器 $\xi = \mathbf{x}^T \beta$,其中 $\mathbf{x}$ 是解释变量,$\beta$ 是待估参数。 3. 链接函数 (Link Function) $g$:它将响应变量的期望 $\mu = \mathbb{E}[Y]$ 与线性预测器联系起来:$g(\mu) = \xi$。

如果链接函数 $g$ 恰好是把期望 $\mu$ 映射到自然参数 $\eta$ 的函数,即 $g(\mu) = \eta$,那么这个链接函数就被称为典则链接函数 (Canonical Link Function)。例如: * 对于伯努利分布,典则链接是 {{{logit}}} 函数。 * 对于泊松分布,典则链接是自然对数函数。

使用典则链接可以进一步简化模型的数学处理和参数估计过程。因此,指数族分布为广义线性模型提供了一个统一而强大的理论框架。