ARTICLE

观测频数

观测频数 (Observed Frequency) 观测频数(Observed Frequency),也称实际频数或经验频数,是描述统计与推断统计中最基本的统计量之一,指在一次抽样或实验中,各分类类别或取值区间内实际出现的个体数目。观测频数构成了所有分类数据分析(Categorical Data Analysis)的原始数据基础,与期望频数(Expected

浏览 3 更新 2026-01-17

观测频数 (Observed Frequency)

观测频数(Observed Frequency),也称实际频数经验频数,是描述统计推断统计中最基本的统计量之一,指在一次抽样或实验中,各分类类别或取值区间内实际出现的个体数目。观测频数构成了所有分类数据分析(Categorical Data Analysis)的原始数据基础,与期望频数(Expected Frequency)的对立统一关系则是卡方检验似然比检验等一系列统计推断方法的核心逻辑支点。

定义与符号

设一个随机实验或调查涉及 k k 个互斥且完备的分类类别 C1,C2,,Ck C_1, C_2, \ldots, C_k 。进行 n n 次独立观测后,落入第 i i 类的个体数目记为 Oi O_i (Observed),即观测频数。显然有:

i=1kOi=n\sum_{i=1}^{k} O_i = n

将观测频数写成向量形式 O=(O1,O2,,Ok)T \mathbf{O} = (O_1, O_2, \ldots, O_k)^T ,该向量服从多项分布 Multinomial(n,p) \mathrm{Multinomial}(n, \mathbf{p}) ,其中 p=(p1,p2,,pk) \mathbf{p} = (p_1, p_2, \ldots, p_k) 为各类别的真实(总体)比例参数。

观测频数与期望频数

观测频数是对抽样结果的直接记录,而期望频数 Ei E_i 则是在某个零假设 H0 H_0 为真的条件下,理论上应落入第 i i 类的次数。期望频数的计算公式为:

Ei=nπi(0)E_i = n \cdot \pi_i^{(0)}

其中 πi(0) \pi_i^{(0)} 为在 H0 H_0 下第 i i 类的理论概率。例如,在拟合优度检验中,若 H0 H_0 假定各类别等概率,则 Ei=n/k E_i = n/k ;在独立性检验中,Eij=(Ri×Cj)/n E_{ij} = (R_i \times C_j) / n ,即行合计与列合计之积除以总样本量。观测频数与期望频数之间的偏离——即 OiEi O_i - E_i ——构成了判断零假设是否成立的信号来源。

Pearson卡方统计量

英国统计学家Karl Pearson于1900年提出以观测频数与期望频数之差的平方和来度量偏离程度,即Pearson卡方统计量

χ2=i=1k(OiEi)2Ei\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}

在零假设成立且 n n 充分大(通常要求所有 Ei5 E_i \geq 5 )的条件下,该统计量渐近服从自由度 ν=k1r \nu = k - 1 - r 卡方分布r r 为从样本估计的参数个数)。当 χ2 \chi^2 值过大——即观测频数与期望频数的差异超出了随机波动所能解释的范围——则拒绝 H0 H_0

值得注意的是,若样本量较小或某些类别期望频数过低,卡方近似会失效。此时通常采用Fisher精确检验(针对 2×2 2 \times 2 列联表)或对类别进行合理合并,以确保每一类都有足够的期望频数。

列联表中的观测频数

列联表(Contingency Table)分析中,观测频数 Oij O_{ij} 是按两个(或多个)分类变量交叉划分后落入第 (i,j) (i, j) 单元格的计数。例如在 r×c r \times c 的二维表中,独立性零假设 H0:pij=pipj H_0: p_{ij} = p_{i\cdot} \cdot p_{\cdot j} 下,期望频数为:

Eij=OiOjnE_{ij} = \frac{O_{i\cdot} \cdot O_{\cdot j}}{n}

其中 Oi=jOij O_{i\cdot} = \sum_j O_{ij} 为第 i i 行的边际频数,Oj O_{\cdot j} 类似。观测频数与这一独立模型的偏离通过卡方检验或似然比统计量 G2=2ijOijln(Oij/Eij) G^2 = 2\sum_i\sum_j O_{ij} \ln(O_{ij} / E_{ij}) 进行评估。在计量经济学中,观测频数还常用于构造离散选择模型(如Logit、Probit)的似然函数:给定协变量 x \mathbf{x} ,选择项 j j 的概率由模型参数决定,实际观测到的选择频数对应的对数似然为 i,jOijlogP(Yi=jxi) \sum_{i,j} O_{ij} \log P(Y_i = j \mid \mathbf{x}_i)

观测频数与频率

将观测频数除以总样本量即得观测频率(相对频数):fi=Oi/n f_i = O_i / n 。根据大数定律,当 n n \to \infty 时,fippi f_i \overset{p}{\longrightarrow} p_i ,即频率依概率收敛于真实概率。这一桥梁将样本中的计数信息与总体参数连接起来,是频率学派统计推断的基本逻辑起点。在贝叶斯统计框架下,观测频数同样出现在似然函数中:若以Dirichlet分布作为多项分布参数 p \mathbf{p} 的共轭先验,则后验分布也是Dirichlet分布,其后验期望为 E[pidata]=(Oi+αi)/(n+αi) \mathbb{E}[p_i \mid \text{data}] = (O_i + \alpha_i) / (n + \sum\alpha_i) ,其中 αi \alpha_i 为先验超参数——观测频数在此直接参与了对先验的更新。

实证应用与注意事项

观测频数在经济学中广泛用于市场研究的消费者偏好分组、劳动经济学的就业状态分类、产业组织的市场份额统计等场景。使用观测频数时须注意:第一,观测频数依赖于分类方案的选择,不同的分箱宽度(bin width)或类别合并方式可能影响分析结果;第二,抽样偏差会导致观测频数系统性地偏离真实分布,这一问题时至今日仍是抽样调查方法论的核心关切;第三,对于连续变量,观测频数需经直方图或核密度估计转化为可解释的图形形式,方能直观呈现数据的分布形态。