ARTICLE

期望频率

期望频率 (Expected Frequency) 期望频率 (Expected Frequency) 是统计学中,特别是在分类数据分析 (Categorical Data Analysis) 和卡方检验的框架下使用的核心概念。它指的是在零假设 H_0(通常为变量间相互独立或无关联的假设)成立的前提下,根据样本数据的边际分布所推算出的、理论上应当观察到的频数

浏览 5 更新 2026-05-25

期望频率 (Expected Frequency)

期望频率 (Expected Frequency) 是统计学中,特别是在分类数据分析 (Categorical Data Analysis) 和卡方检验的框架下使用的核心概念。它指的是在零假设 H0H_0(通常为变量间相互独立或无关联的假设)成立的前提下,根据样本数据的边际分布所推算出的、理论上应当观察到的频数。

定义与计算公式

对于一个 r×cr \times c列联表 (Contingency Table),设第 ii 行第 jj 列的观测频率 (Observed Frequency) 为 OijO_{ij},行合计为 Ri=j=1cOijR_i = \sum_{j=1}^{c} O_{ij},列合计为 Cj=i=1rOijC_j = \sum_{i=1}^{r} O_{ij},总样本量为 N=i=1rj=1cOijN = \sum_{i=1}^{r} \sum_{j=1}^{c} O_{ij}。在行变量与列变量相互独立的零假设下,单元格 (i,j)(i, j) 的期望频率 EijE_{ij} 为:

Eij=Ri×CjNE_{ij} = \frac{R_i \times C_j}{N}

这一公式的直觉是:若两变量独立,则落入单元格 (i,j)(i, j) 的概率应为行概率与列概率的乘积 RiN×CjN\frac{R_i}{N} \times \frac{C_j}{N},乘以总样本量 NN 即得期望频数。

在卡方检验中的角色

期望频率是皮尔逊卡方检验 (Pearson's Chi-Squared Test) 的基石。该检验的统计量定义为:

χ2=i=1rj=1c(OijEij)2Eij\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

直观上,χ2\chi^2 统计量度量了观测频率与期望频率之间的总体偏差。当零假设为真时,OijO_{ij}EijE_{ij} 的差异仅由抽样误差引起,χ2\chi^2 近似服从卡方分布 χ2((r1)(c1))\chi^2((r-1)(c-1))。若偏差过大导致统计量落入拒绝域,则拒绝独立性假设。

期望频率的适用条件

使用期望频率及卡方检验时,需满足以下条件:

  1. 样本独立性:各观测值必须相互独立,通常由简单随机抽样保证。
  2. 期望频率下限:传统经验规则要求所有 Eij5E_{ij} \geq 5,至少要求 Eij1E_{ij} \geq 1 且低于 55 的单元格不超过总数的 20%20\%。若大量期望频率过小,应使用Fisher精确检验作为替代。
  3. 固定边际:卡方检验的经典版本假设边际合计非随机。若边际本身也是随机的,需使用其他模型(如泊松对数线性模型)。

与其他概念的关系

期望频率与观测频率 OijO_{ij} 构成对比:前者是理论推导值,后者是实际计数数据。两者的差 OijEijO_{ij} - E_{ij} 称为残差 (Residual),其标准化形式 OijEijEij\frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}}} 称为皮尔逊残差 (Pearson Residual),用于诊断哪些单元格对 χ2\chi^2 统计量贡献最大。

拟合优度检验 (Goodness-of-Fit Test) 中,期望频率的概念同样适用:根据某个理论分布(如均匀分布、正态分布)计算各类别的期望频数,再与观测频数比较。

计算实例

假设调查 200200 名受访者的性别与品牌偏好,得到如下列联表:

\begin{tabular}{c|cc|c} \& 品牌A \& 品牌B \& 合计 \\ \hline 男 \& 50 \& 30 \& 80 \\ 女 \& 40 \& 80 \& 120 \\ \hline 合计 \& 90 \& 110 \& 200 \end{tabular}

若性别与品牌偏好独立,则男性偏好品牌A的期望频率为:

E11=80×90200=36E_{11} = \frac{80 \times 90}{200} = 36

同理,男性偏好品牌B的期望频率为 E12=80×110200=44E_{12} = \frac{80 \times 110}{200} = 44,女性偏好品牌A为 E21=120×90200=54E_{21} = \frac{120 \times 90}{200} = 54,女性偏好品牌B为 E22=120×110200=66E_{22} = \frac{120 \times 110}{200} = 66。将这些期望值与观测值 (50,30,40,80)(50, 30, 40, 80) 代入 χ2\chi^2 公式可判断独立性。

注意事项与常见误解

  • 期望频率是理论推导值而非实际观测值,可以是非整数。
  • 小的期望频率并不自动使检验失效;Yates连续性校正仅适用于 2×22 \times 2 表,且在现代统计实践中争议较大。
  • 期望频率依赖于零假设的设定。在同质性检验中,零假设为各总体分布相同而非变量独立,但计算公式形式上一致。

期望频率将抽象的独立性假设转化为可量化的数值基准,使统计推断从主观判断走向客观检验,是推断统计中连接理论与数据的关键桥梁。