多项分布 (Multinomial Distribution)
多项分布是二项分布向多维情形的直接推广,描述 n 次独立重复试验中 k 个互斥结果各自出现次数的联合概率分布。当 k=2 时退化为二项分布。其在自然语言处理、计量经济学、遗传学及分类数据分析中具有广泛应用。
定义
设一次试验有 k 个可能结果,各结果发生的概率分别为 p1,p2,…,pk,满足 ∑i=1kpi=1。在 n 次独立重复试验中,记 X1,X2,…,Xk 为各结果出现的次数,则 (X1,…,Xk) 服从参数为 (n;p1,…,pk) 的多项分布,其联合概率质量函数为:
P(X1=x1,…,Xk=xk)=x1!x2!⋯xk!n!p1x1p2x2⋯pkxk
其中 xi≥0 且 ∑i=1kxi=n。系数 x1!⋯xk!n! 称为多项系数,即把 n 个有区别的物体分成 k 组、每组 xi 个的方法数。
基本性质
期望与方差:每个边际分布 Xi∼Binomial(n,pi),因此:
E[Xi]=npi,Var(Xi)=npi(1−pi)
协方差:不同结果之间呈负相关——某结果出现次数增多意味着其他结果出现次数减少:
Cov(Xi,Xj)=−npipj,i=j
这反映了预算约束式的总量关系:∑iXi=n 固定,因此协方差矩阵的秩为 k−1。
矩母函数:
M(t1,…,tk)=E[exp(i=1∑ktiXi)]=(i=1∑kpieti)n
与 Dirichlet 分布的关系
多项分布是 Dirichlet 分布的共轭先验对应的似然函数。若先验 p∼Dirichlet(α),观测到多项分布数据 x=(x1,…,xk) 后,后验仍为 Dirichlet:
p∣x∼Dirichlet(α1+x1,…,αk+xk)
这一性质在贝叶斯统计和主题模型(如 LDA)中发挥核心作用。
渐近性质
由中心极限定理,当 n→∞ 时,多项分布可近似为多元正态分布:
n1(X−np)dNk(0,Σ)
其中 Σii=pi(1−pi),Σij=−pipj(i=j)。协方差矩阵奇异(秩 k−1),因为 ∑i(Xi−npi)=0。
拟合优度检验
多项分布为 Pearson χ2 检验提供了理论依据。检验统计量
χ2=i=1∑kEi(Oi−Ei)2
在原假设 H0:pi=pi(0) 下渐近服从 χk−12 分布,其中 Oi 为观测频数,Ei=npi(0) 为期望频数。
应用场景
- 自然语言处理:词袋模型(Bag-of-Words)中,文档中各词频的联合分布服从多项分布,是朴素贝叶斯分类器和 LDA 主题模型的核心假设。
- 遗传学:Hardy–Weinberg 平衡检验中,不同基因型的个体计数服从多项分布,用以判断种群是否处于遗传平衡。
- 市场研究:消费者在多品牌中的选择频次建模。若各次选择独立,则品牌选择计数服从多项分布,是 Multinomial Logit 模型的基础。
- 选举预测:民意调查中,受访者在多个候选人中的支持人数构成多项分布样本,由此计算各候选人支持率的联合置信域。
- 生态学:物种丰度调查中,各物种被观测到的个体数可视为多项分布实现,用于估计物种多样性(如 Shannon 指数)的抽样分布。
与相关分布的联系
| 分布 | 关系 | |------|------| | 二项分布 | k=2 时的特例 | | Poisson 多项分布 | 若 n 本身随机且服从 Poisson,则各 Xi 独立 Poisson | | 多元超几何分布 | 不放回抽样的情形,协方差结构类似但分母不同 | | Dirichlet 分布 | 共轭先验,见上文 | | Multinomial Logit | 多项分布的概率参数化模型,pi∝exp(βi⊤x) |
> 核心直觉:多项分布刻画了总量固定下多维计数数据的自然变异性。其负协方差结构是理解"此消彼长"关系的数学基础——分类问题中,某一类别的增多必然以其他类别的减少为代价。
参数估计
给定观测数据 x(1),…,x(m) 来自 m 次多项试验,似然函数为:
L(p)∝j=1∏mi=1∏kpixij=i=1∏kpi∑jxij
最大似然估计为 p^i=mn∑jxij,即样本中结果 i 出现的总比例。在贝叶斯框架下,Dirichlet 先验 pi∼Dir(αi) 给出后验均值估计 p~i=∑i(αi+∑jxij)αi+∑jxij,天然具有平滑作用,可避免零频数问题。