知经 KNOWECON · 卓越的经济金融统计数学学习平台

拟合优度检验

# 拟合优度检验 (Goodness-of-Fit Test)

拟合优度检验 (Goodness-of-Fit Test) 是一类{{{统计假设检验}}}方法,用于判断一个{{{样本}}}的{{{观测数据}}}的频数分布是否与某个理论上预期的{{{概率分布}}}(即{{{理论分布}}})相吻合。其核心问题是:我们观测到的数据模式,是否可以合理地认为它来自于某个特定的理论模型或总体分布?

例如,在金融学中,我们可能想知道一只股票的日收益率是否服从{{{正态分布}}};在生产管理中,我们可能想检验一个生产线上每日的次品数量是否服从{{{泊松分布}}}。拟合优度检验为此类问题提供了定量的决策依据。

## 核心思想与基本原理

拟合优度检验的基本逻辑是比较 “观测”“期望” 之间的差异。

1. {{{观测频数}}} (Observed Frequencies, $O_i$):这是从样本数据中直接统计得到的每个类别或区间内的实际发生次数。例如,投掷一枚骰子120次,观测到数字“1”出现了25次,那么“1”这个类别的观测频数就是25。

2. {{{期望频数}}} (Expected Frequencies, $E_i$):这是在假设数据来自于某个特定理论分布(即{{{原假设}}}为真)的情况下,我们理论上期望在每个类别或区间内出现的次数。例如,如果假设骰子是均匀的,那么投掷120次,每个点数出现的期望频数应该是 $120 \times \frac{1}{6} = 20$ 次。

如果观测频数与期望频数非常接近,我们就有理由相信数据与理论分布拟合得很好。反之,如果两者差异巨大,我们则倾向于拒绝原假设,认为数据并非来自于该理论分布。拟合优度检验就是通过构建一个{{{检验统计量}}}来量化这种“差异”的程度。

检验的基本假设结构如下: * {{{原假设}}} ($H_0$):样本数据来自于所指定的理论分布。 * {{{备择假设}}} ($H_a$):样本数据不来自于所指定的理论分布。

## 皮尔逊卡方拟合优度检验 (Pearson's Chi-squared Goodness-of-Fit Test)

这是最常用、最经典的拟合优度检验方法,尤其适用于{{{离散型数据}}}或已被分箱(binned)的{{{连续型数据}}}。该检验由[[卡尔·皮尔逊]]提出。

### 检验统计量

卡方检验统计量($\chi^2$)计算所有类别中观测频数与期望频数差异的加权平方和。其公式为:

$$ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} $$

其中: * $O_i$ 是第 $i$ 个类别的观测频数。 * $E_i$ 是第 $i$ 个类别的期望频数。 * $k$ 是类别的总数。

这个统计量直观地反映了拟合的偏差程度: * 如果 $O_i$ 和 $E_i$ 对所有类别都非常接近,那么每个 $\frac{(O_i - E_i)^2}{E_i}$ 项都会很小,最终的 $\chi^2$ 值也会很小。 * 如果至少有一个类别的 $O_i$ 和 $E_i$ 差异很大,那么 $\chi^2$ 值就会很大。

在原假设成立的条件下,该统计量近似服从{{{卡方分布}}} ($\chi^2$ distribution)。

### 自由度 (Degrees of Freedom)

卡方分布的形态由其{{{自由度}}}($df$)决定。在拟合优度检验中,自由度的计算公式为:

$$ df = k - 1 - m $$

其中: * $k$ 是类别的数量。 * $m$ 是在计算期望频数时,从样本数据中估计出的总体参数的个数。 * 如果理论分布的参数是预先给定的(例如,检验骰子是否“均匀”,概率 $p=1/6$ 是已知的),则没有从数据中估计参数, $m=0$。此时 $df = k-1$。 * 如果理论分布的参数需要从样本数据中估计(例如,检验数据是否服从泊松分布,但其均值 $\lambda$ 是从样本均值估计的),则每估计一个参数,就要减去一个自由度。此例中 $m=1$, $df = k-2$。

### 决策规则

在给定的{{{显著性水平}}} $\alpha$(例如 $0.05)下,我们可以通过两种方式做出决策:

1. 临界值法:计算出 $\chi^2$ 统计量后,与自由度为 $df$ 的卡方分布在 $\alpha$ 水平下的{{{临界值}}} $\chi^2_{\alpha, df}$ 进行比较。 * 如果 $\chi^2_{\text{calculated}} > \chi^2_{\alpha, df}$,则拒绝原假设 $H_0$,认为数据不符合理论分布。 * 如果 $\chi^2_{\text{calculated}} \le \chi^2_{\alpha, df}$,则不拒绝原假设 $H_0$。

2. {{{P值}}}法:计算出 $\chi^2$ 统计量后,求出其对应的P值。P值是在原假设为真的前提下,获得现有或更极端检验统计量的概率,即 $P(\chi^2_{df} > \chi^2_{\text{calculated}})$。 * 如果 P值 $< \alpha$,则拒绝原假设 $H_0$。 * 如果 P值 $\ge \alpha$,则不拒绝原假设 $H_0$。

### 计算步骤与示例

问题:某研究人员声称,某城市四个区域(A, B, C, D)的居民购房意愿是均等的。为了验证这一说法,随机抽取了200位居民进行调查,得到的结果如下表。在 $\alpha = 0.05$ 的显著性水平下,我们能否认为各区域居民购房意愿是均等的?

| 区域 | A | B | C | D | 总计 | | :--- | :-: | :-: | :-: | :-: | :--- | | **观测频数 ($O_i$)** | 60 | 45 | 55 | 40 | 200 |

步骤 1:提出假设 * $H_0$:各区域居民购房意愿均等(即每个区域的概率均为 $1/4$)。 * $H_a$:各区域居民购房意愿不均等。

步骤 2:计算期望频数 ($E_i$) 如果 $H_0$ 为真,那么每个区域的期望频数应为总人数乘以其理论概率: $E_A = E_B = E_C = E_D = 200 \times \frac{1}{4} = 50$

步骤 3:计算卡方统计量 ($\chi^2$) $$ \begin{aligned} \chi^2 &= \frac{(60-50)^2}{50} + \frac{(45-50)^2}{50} + \frac{(55-50)^2}{50} + \frac{(40-50)^2}{50} \\ &= \frac{10^2}{50} + \frac{(-5)^2}{50} + \frac{5^2}{50} + \frac{(-10)^2}{50} \\ &= \frac{100}{50} + \frac{25}{50} + \frac{25}{50} + \frac{100}{50} \\ &= 2.0 + 0.5 + 0.5 + 2.0 = 5.0 \end{aligned} $$

步骤 4:确定自由度与决策 * 类别数 $k=4$。 * 理论分布的概率($1/4$)是预先给定的,没有从数据中估计参数,所以 $m=0$。 * 自由度 $df = k - 1 - m = 4 - 1 - 0 = 3$。 * 查找卡方分布表,在 $\alpha = 0.05$, $df=3$ 时的临界值为 $\chi^2_{0.05, 3} \approx 7.815$。 * 因为我们计算出的 $\chi^2 = 5.0$ 小于临界值 $7.815$,所以我们 不拒绝原假设 $H_0$

结论:在 $0.05 的显著性水平下,没有足够的统计证据表明该城市四个区域的居民购房意愿存在显著差异。

## 其他常见的拟合优度检验方法

除了卡方检验,还有其他几种重要的拟合优度检验方法,特别是在处理连续分布时。

* {{{柯尔莫哥洛夫-斯米尔诺夫检验}}} (Kolmogorov-Smirnov Test, K-S Test):这是一种用于连续分布的非参数检验。它通过比较样本的{{{经验分布函数}}}(ECDF)与理论分布的{{{累积分布函数}}}(CDF)之间的最大绝对差值来进行检验。当数据未被分箱时,它通常比卡方检验更具{{{统计功效}}}。

* {{{安德森-达林检验}}} (Anderson-Darling Test):这是K-S检验的改进版。它同样比较ECDF和CDF,但在计算差异时对分布的尾部给予了更大的权重。这使得它在检测分布尾部差异时特别敏感,这在{{{风险管理}}}和{{{水文学}}}等领域非常重要。

* {{{夏皮罗-威尔克检验}}} (Shapiro-Wilk Test):这是一种专门用于检验数据是否服从{{{正态分布}}}的检验。它被广泛认为是检验{{{正态性}}}最有效的方法之一,尤其是在小样本情况下。

## 使用条件与注意事项

以卡方检验为例,其有效应用需满足以下条件:

1. 样本随机性:数据必须从目标总体中{{{随机抽样}}}得到。 2. 频数数据:数据必须是分类后的频数或计数形式。 3. 期望频数大小:卡方检验的理论基础是其统计量近似服从卡方分布,而这种近似在期望频数较小时会不准确。通常要求: * 绝大多数(通常>80%)的类别的期望频数 $E_i$ 不应小于5。 * 所有类别的期望频数 $E_i$ 不应小于1。 * 如果不满足该条件,应考虑合并相邻的类别,以提高期望频数。 4. 独立性:每次抽样或观测事件应该是独立的。