ARTICLE

期望频率

期望频率 (Expected Frequency) 期望频率 (Expected Frequency) 是统计学中，特别是在分类数据分析 (Categorical Data Analysis) 和卡方检验的框架下使用的核心概念。它指的是在零假设 H_0（通常为变量间相互独立或无关联的假设）成立的前提下，根据样本数据的边际分布所推算出的、理论上应当观察到的频数

浏览 5 更新 2026-05-25

期望频率 (Expected Frequency)

期望频率 (Expected Frequency) 是统计学中，特别是在分类数据分析 (Categorical Data Analysis) 和卡方检验的框架下使用的核心概念。它指的是在零假设 $H_0$ （通常为变量间相互独立或无关联的假设）成立的前提下，根据样本数据的边际分布所推算出的、理论上应当观察到的频数。

定义与计算公式

对于一个 $r \times c$ 的列联表 (Contingency Table)，设第 $i$ 行第 $j$ 列的观测频率 (Observed Frequency) 为 $O_{ij}$ ，行合计为 $R_i = \sum_{j=1}^{c} O_{ij}$ ，列合计为 $C_j = \sum_{i=1}^{r} O_{ij}$ ，总样本量为 $N = \sum_{i=1}^{r} \sum_{j=1}^{c} O_{ij}$ 。在行变量与列变量相互独立的零假设下，单元格 $(i, j)$ 的期望频率 $E_{ij}$ 为：

E_{ij} = \frac{R_i \times C_j}{N}

这一公式的直觉是：若两变量独立，则落入单元格 $(i, j)$ 的概率应为行概率与列概率的乘积 $\frac{R_i}{N} \times \frac{C_j}{N}$ ，乘以总样本量 $N$ 即得期望频数。

在卡方检验中的角色

期望频率是皮尔逊卡方检验 (Pearson's Chi-Squared Test) 的基石。该检验的统计量定义为：

\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

直观上， $\chi^2$ 统计量度量了观测频率与期望频率之间的总体偏差。当零假设为真时， $O_{ij}$ 与 $E_{ij}$ 的差异仅由抽样误差引起， $\chi^2$ 近似服从卡方分布 $\chi^2((r-1)(c-1))$ 。若偏差过大导致统计量落入拒绝域，则拒绝独立性假设。

期望频率的适用条件

使用期望频率及卡方检验时，需满足以下条件：

样本独立性：各观测值必须相互独立，通常由简单随机抽样保证。
期望频率下限：传统经验规则要求所有 $E_{ij} \geq 5$ ，至少要求 $E_{ij} \geq 1$ 且低于 $5$ 的单元格不超过总数的 $20\%$ 。若大量期望频率过小，应使用Fisher精确检验作为替代。
固定边际：卡方检验的经典版本假设边际合计非随机。若边际本身也是随机的，需使用其他模型（如泊松对数线性模型）。

与其他概念的关系

期望频率与观测频率 $O_{ij}$ 构成对比：前者是理论推导值，后者是实际计数数据。两者的差 $O_{ij} - E_{ij}$ 称为残差 (Residual)，其标准化形式 $\frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}}}$ 称为皮尔逊残差 (Pearson Residual)，用于诊断哪些单元格对 $\chi^2$ 统计量贡献最大。

在拟合优度检验 (Goodness-of-Fit Test) 中，期望频率的概念同样适用：根据某个理论分布（如均匀分布、正态分布）计算各类别的期望频数，再与观测频数比较。

计算实例

假设调查 $200$ 名受访者的性别与品牌偏好，得到如下列联表：

\begin{tabular}{c|cc|c} \& 品牌A \& 品牌B \& 合计 \\ \hline 男 \& 50 \& 30 \& 80 \\ 女 \& 40 \& 80 \& 120 \\ \hline 合计 \& 90 \& 110 \& 200 \end{tabular}

若性别与品牌偏好独立，则男性偏好品牌A的期望频率为：

E_{11} = \frac{80 \times 90}{200} = 36

同理，男性偏好品牌B的期望频率为 $E_{12} = \frac{80 \times 110}{200} = 44$ ，女性偏好品牌A为 $E_{21} = \frac{120 \times 90}{200} = 54$ ，女性偏好品牌B为 $E_{22} = \frac{120 \times 110}{200} = 66$ 。将这些期望值与观测值 $(50, 30, 40, 80)$ 代入 $\chi^2$ 公式可判断独立性。

注意事项与常见误解

期望频率是理论推导值而非实际观测值，可以是非整数。
小的期望频率并不自动使检验失效；Yates连续性校正仅适用于 $2 \times 2$ 表，且在现代统计实践中争议较大。
期望频率依赖于零假设的设定。在同质性检验中，零假设为各总体分布相同而非变量独立，但计算公式形式上一致。

期望频率将抽象的独立性假设转化为可量化的数值基准，使统计推断从主观判断走向客观检验，是推断统计中连接理论与数据的关键桥梁。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。