ARTICLE

Expected Frequency

期望频率 期望频率(Expected Frequency)是统计学中一个基础而重要的概念,广泛出现在列联表分析、卡方检验、拟合优度检验等各类统计推断方法中。简而言之,期望频率是指在某一统计假设(通常是原假设)成立的前提下,某个类别或单元格理论上应当出现的频数。它反映了"如果零假设为真,数据会是什么样子"这一反事实推论的量化结果,是连接理论模型与经验观测之间的

浏览 0 更新 2025-10-26

期望频率

期望频率(Expected Frequency)是统计学中一个基础而重要的概念,广泛出现在列联表分析、卡方检验、拟合优度检验等各类统计推断方法中。简而言之,期望频率是指在某一统计假设(通常是原假设)成立的前提下,某个类别或单元格理论上应当出现的频数。它反映了"如果零假设为真,数据会是什么样子"这一反事实推论的量化结果,是连接理论模型与经验观测之间的关键桥梁。

定义与基本形式

在列联表分析中,期望频率通常根据行和与列和的乘积除以总样本数来计算。具体而言,对于一个 r×c r \times c 的列联表,第 i i 行第 j j 列的期望频率 Eij E_{ij} 由以下公式给出:

Eij=RiCjNE_{ij} = \frac{R_i \cdot C_j}{N}

其中 Ri R_i 是第 i i 行的合计频数,Cj C_j 是第 j j 列的合计频数,N N 是总样本量。这一公式的本质是行变量与列变量相互独立这一假设下的概率乘积形式:P(AiBj)=P(Ai)P(Bj) P(A_i \cap B_j) = P(A_i) \cdot P(B_j) 。换言之,若两个分类变量彼此独立,则它们同时出现的概率等于各自边际概率的乘积,再乘以样本总量即得期望频数。

在拟合优度检验中,期望频率则直接由假设的概率分布乘以样本量得到:

Ei=NpiE_i = N \cdot p_i

其中 pi p_i 是第 i i 个类别在原假设下的理论概率。例如,检验一枚骰子是否均匀时,每个面朝上的理论概率为六分之一,若投掷六百次,则每个面的期望频率为一百次。

与卡方检验的关系

期望频率是卡方检验的核心计算要素。皮尔逊卡方统计量的定义为:

χ2=i=1k(OiEi)2Ei\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}

其中 Oi O_i 表示观测频率,Ei E_i 表示期望频率。这一统计量衡量的是观测值与期望值之间的偏离程度。偏离越大,卡方统计量越大,对应的 p p 值越小,原假设被拒绝的可能性越高。若期望频率过小(通常认为小于5),卡方统计量的卡方分布近似性质可能失效,此时需要采用费希尔精确检验(Fisher's Exact Test)或合并相邻类别等修正方法。这一条件称为"柯克兰条件"(Cochran's Rule),是应用卡方检验时的重要考量。

在不同检验中的应用

期望频率的概念不仅在独立性检验中发挥作用,还广泛延伸至同质性检验、麦克尼马尔检验、趋势检验等场景。在同质性检验中,期望频率依然采用独立假设下的乘积公式,但其解释角度不同——它考察的是不同群体(如不同年龄段、不同地区)的分布是否一致,而非两个分类变量是否独立。

此外,期望频率也是列联表中残差分析的基础。标准化残差 (OiEi)/Ei (O_i - E_i)/\sqrt{E_i} 和调整后残差都依赖于期望频率的准确计算,帮助研究者在卡方检验显著之后,进一步识别哪些单元格的偏离最为显著,从而定位数据中具体的不一致模式。

期望频率的直观理解

从直观上理解,期望频率可以看作是在重复抽样下,如果零假设成立,某一单元格长期平均出现的频数。这种长期频率解释与频率学派统计思想一脉相承。它不代表某一次实验中该单元格一定会出现的次数,而是一种理论参照基准。就好比掷硬币——期望频率告诉我们,抛一百次中正面朝上的期望次数是五十次,但这并不妨碍实际结果出现五十五次或四十五次。

期望频率与观测频率的对比

期望频率与观测频率之间的差异是统计推断的出发点。若二者相差甚微,说明数据与原假设较为吻合;若相差悬殊,则暗示原假设可能不成立。这种对比的思想贯穿于整个假设检验体系,从简单的二项检验到复杂的多元分析无不如此。在贝叶斯统计框架下,期望频率也可结合先验分布进行修正,形成后验期望频率,从而将先验信息纳入分析过程。这种贝叶斯方法在小样本情况下尤为有用,能够有效缓解传统频率学派方法因期望频率过小而导致的不稳定性问题。

注意事项

在实际应用中,期望频率的计算前提是观测数据的随机性和独立性。若样本存在聚类结构或依赖关系,简单的乘积公式可能产生偏差,研究者需借助更复杂的模型加以校正。此外,期望频率本身也是随机变量——它依赖于边际合计,而边际合计本身是随机的。这一点在解释检验结果时需加以注意,不可将期望频率视为固定不变的常数。对于小样本情况,应优先考虑精确检验方法,而非依赖大样本近似,以避免因近似失效而得出错误结论。

小结

总体而言,期望频率是连接理论假设与观测数据之间的一座桥梁。它将抽象的概率假设转化为可量化的数值参照,使得研究者能够以系统的方式评估数据与原假设之间的吻合程度。无论是基础的卡方检验还是更为复杂的对数线性模型,期望频率都扮演着不可替代的角色,是统计推断工具箱中的核心概念之一。