ARTICLE

多项分布

多项分布 (Multinomial Distribution) 多项分布是二项分布向多维情形的直接推广,描述 n 次独立重复试验中 k 个互斥结果各自出现次数的联合概率分布。当 k=2 时退化为二项分布。其在自然语言处理、计量经济学、遗传学及分类数据分析中具有广泛应用。 定义 设一次试验有 k 个可能结果,各结果发生的概率分别为 p_1, p_2, , p_

浏览 0 更新 2025-10-26

多项分布 (Multinomial Distribution)

多项分布是二项分布向多维情形的直接推广,描述 n n 次独立重复试验中 k k 个互斥结果各自出现次数的联合概率分布。当 k=2 k=2 时退化为二项分布。其在自然语言处理、计量经济学、遗传学及分类数据分析中具有广泛应用。

定义

设一次试验有 k k 个可能结果,各结果发生的概率分别为 p1,p2,,pk p_1, p_2, \dots, p_k ,满足 i=1kpi=1 \sum_{i=1}^{k} p_i = 1 。在 n n 次独立重复试验中,记 X1,X2,,Xk X_1, X_2, \dots, X_k 为各结果出现的次数,则 (X1,,Xk) (X_1, \dots, X_k) 服从参数为 (n;p1,,pk) (n; p_1, \dots, p_k) 的多项分布,其联合概率质量函数为:

P(X1=x1,,Xk=xk)=n!x1!x2!xk!p1x1p2x2pkxkP(X_1 = x_1, \dots, X_k = x_k) = \frac{n!}{x_1! \, x_2! \, \cdots \, x_k!} \, p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}

其中 xi0 x_i \geq 0 i=1kxi=n \sum_{i=1}^{k} x_i = n 。系数 n!x1!xk! \frac{n!}{x_1! \cdots x_k!} 称为多项系数,即把 n n 个有区别的物体分成 k k 组、每组 xi x_i 个的方法数。

基本性质

期望与方差:每个边际分布 XiBinomial(n,pi) X_i \sim \text{Binomial}(n, p_i) ,因此:

E[Xi]=npi,Var(Xi)=npi(1pi)E[X_i] = n p_i, \quad \text{Var}(X_i) = n p_i (1 - p_i)

协方差:不同结果之间呈负相关——某结果出现次数增多意味着其他结果出现次数减少:

Cov(Xi,Xj)=npipj,ij\text{Cov}(X_i, X_j) = -n p_i p_j, \quad i \neq j

这反映了预算约束式的总量关系:iXi=n \sum_i X_i = n 固定,因此协方差矩阵的秩为 k1 k-1

矩母函数

M(t1,,tk)=E[exp(i=1ktiXi)]=(i=1kpieti)nM(t_1, \dots, t_k) = E\left[\exp\left(\sum_{i=1}^k t_i X_i\right)\right] = \left(\sum_{i=1}^k p_i e^{t_i}\right)^n

与 Dirichlet 分布的关系

多项分布是 Dirichlet 分布的共轭先验对应的似然函数。若先验 pDirichlet(α) \boldsymbol{p} \sim \text{Dirichlet}(\boldsymbol{\alpha}) ,观测到多项分布数据 x=(x1,,xk) \boldsymbol{x} = (x_1, \dots, x_k) 后,后验仍为 Dirichlet:

pxDirichlet(α1+x1,,αk+xk)\boldsymbol{p} \mid \boldsymbol{x} \sim \text{Dirichlet}(\alpha_1 + x_1, \dots, \alpha_k + x_k)

这一性质在贝叶斯统计和主题模型(如 LDA)中发挥核心作用。

渐近性质

由中心极限定理,当 n n \to \infty 时,多项分布可近似为多元正态分布:

1n(Xnp)dNk(0,Σ)\frac{1}{\sqrt{n}}\left(\boldsymbol{X} - n\boldsymbol{p}\right) \xrightarrow{d} \mathcal{N}_k\left(\boldsymbol{0}, \boldsymbol{\Sigma}\right)

其中 Σii=pi(1pi) \Sigma_{ii} = p_i(1-p_i) Σij=pipj \Sigma_{ij} = -p_i p_j ij i \neq j )。协方差矩阵奇异(秩 k1 k-1 ),因为 i(Xinpi)=0 \sum_i (X_i - np_i) = 0

拟合优度检验

多项分布为 Pearson χ2 \chi^2 检验提供了理论依据。检验统计量

χ2=i=1k(OiEi)2Ei\chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}

在原假设 H0:pi=pi(0) H_0: p_i = p_i^{(0)} 下渐近服从 χk12 \chi^2_{k-1} 分布,其中 Oi O_i 为观测频数,Ei=npi(0) E_i = n p_i^{(0)} 为期望频数。

应用场景

  1. 自然语言处理:词袋模型(Bag-of-Words)中,文档中各词频的联合分布服从多项分布,是朴素贝叶斯分类器和 LDA 主题模型的核心假设。
  1. 遗传学:Hardy–Weinberg 平衡检验中,不同基因型的个体计数服从多项分布,用以判断种群是否处于遗传平衡。
  1. 市场研究:消费者在多品牌中的选择频次建模。若各次选择独立,则品牌选择计数服从多项分布,是 Multinomial Logit 模型的基础。
  1. 选举预测:民意调查中,受访者在多个候选人中的支持人数构成多项分布样本,由此计算各候选人支持率的联合置信域。
  1. 生态学:物种丰度调查中,各物种被观测到的个体数可视为多项分布实现,用于估计物种多样性(如 Shannon 指数)的抽样分布。

与相关分布的联系

| 分布 | 关系 | |------|------| | 二项分布 | k=2 k=2 时的特例 | | Poisson 多项分布 | 若 n n 本身随机且服从 Poisson,则各 Xi X_i 独立 Poisson | | 多元超几何分布 | 不放回抽样的情形,协方差结构类似但分母不同 | | Dirichlet 分布 | 共轭先验,见上文 | | Multinomial Logit | 多项分布的概率参数化模型,piexp(βix) p_i \propto \exp(\beta_i^\top x) |

> 核心直觉:多项分布刻画了总量固定下多维计数数据的自然变异性。其负协方差结构是理解"此消彼长"关系的数学基础——分类问题中,某一类别的增多必然以其他类别的减少为代价。

参数估计

给定观测数据 x(1),,x(m) \boldsymbol{x}^{(1)}, \dots, \boldsymbol{x}^{(m)} 来自 m m 次多项试验,似然函数为:

L(p)j=1mi=1kpixij=i=1kpijxijL(\boldsymbol{p}) \propto \prod_{j=1}^m \prod_{i=1}^k p_i^{x_{ij}} = \prod_{i=1}^k p_i^{\sum_j x_{ij}}

最大似然估计为 p^i=jxijmn \hat{p}_i = \frac{\sum_j x_{ij}}{m n} ,即样本中结果 i i 出现的总比例。在贝叶斯框架下,Dirichlet 先验 piDir(αi) p_i \sim \text{Dir}(\alpha_i) 给出后验均值估计 p~i=αi+jxiji(αi+jxij) \tilde{p}_i = \frac{\alpha_i + \sum_j x_{ij}}{\sum_i (\alpha_i + \sum_j x_{ij})} ,天然具有平滑作用,可避免零频数问题。