# 卡方同质性检验 (Chi-squared Test of Homogeneity)
卡方同质性检验 (Chi-squared Test of Homogeneity) 是一种{{{统计推断}}}方法,用于检验两个或多个不同{{{总体}}} (population) 在某个单一{{{分类变量}}} (categorical variable) 上的分布是否相同。换言之,它旨在回答这样一个问题:这些不同的群体在该变量的各个类别上的比例分布是否是 同质的 (homogeneous)?
该检验隶属于{{{卡方检验}}} (Chi-squared Tests) 家族。与检验两个变量之间是否存在关联的{{{卡方独立性检验}}}不同,同质性检验的核心在于比较不同样本之间的分布一致性。
## 核心目标与应用场景
卡方同质性检验的主要目标是确定从不同总体中抽取的样本是否可以被认为是来自于具有相同分布的更大总体。
应用场景: * 市场研究:比较不同年龄段的消费者(总体1:青年,总体2:中年,总体3:老年)对于某款产品的偏好(分类变量:喜欢、不喜欢、中立)分布是否相同。 * 医学研究:检验接受不同治疗方案(总体1:药物A,总体2:药物B,总体3:安慰剂)的患者,其康复结果(分类变量:完全康复、部分康复、无改善)的分布是否存在差异。 * 社会科学:研究不同族裔群体(多个总体)在政治倾向(分类变量:保守派、自由派、中间派)上的分布是否一致。
在这些场景中,研究者从每个预先确定的总体中独立抽取{{{样本}}},然后比较这些样本中分类变量的分布情况。
## 检验的构建
### 1. 假设的设立
与所有{{{假设检验}}}一样,我们首先需要设定{{{零假设}}} ($H_0$) 和{{{备择假设}}} ($H_a$)。
* 零假设 ($H_0$):所有总体的分类变量分布是相同的。也就是说,这些总体是同质的。 * 形式化地,对于任意一个类别 $j$,它在总体 $i$ 中所占的比例 $p_{ij}$ 都是相等的。即 $p_{1j} = p_{2j} = \dots = p_{kj}$ 对所有类别 $j$ 成立(其中 $k$ 是总体的数量)。 * 备择假设 ($H_a$):至少有一个总体的分布与其他总体不同。也就是说,这些总体不是同质的。
### 2. 数据结构:列联表
检验的数据通常被整理在一个 列联表 (Contingency Table) 中。表的行代表不同的总体(或样本),列代表分类变量的各个类别。表中的每个单元格记录了来自特定总体且属于特定类别的 观测频数 (Observed Frequencies)。
| | 类别 1 | 类别 2 | $...$ | 类别 c | 行总计 | | :--- | :---: | :---: | :---: | :---: | :---: | | 总体 1 | $O_{11}$ | $O_{12}$ | $...$ | $O_{1c}$ | $n_1$ | | 总体 2 | $O_{21}$ | $O_{22}$ | $...$ | $O_{2c}$ | $n_2$ | | $...$ | $...$ | $...$ | $...$ | $...$ | $...$ | | 总体 r | $O_{r1}$ | $O_{r2}$ | $...$ | $O_{rc}$ | $n_r$ | | 列总计| $C_1$ | $C_2$ | $...$ | $C_c$ | $N$ |
其中: * $r$ 是总体的数量。 * $c$ 是分类变量的类别数量。 * $O_{ij}$ 是在第 $i$ 个总体中,属于第 $j$ 个类别的观测数量。 * $n_i$ 是从第 $i$ 个总体中抽取的样本大小(第 $i$ 行的总计)。 * $C_j$ 是属于第 $j$ 个类别的总观测数量(第 $j$ 列的总计)。 * $N$ 是总样本量(所有观测值的总和)。
### 3. 期望频数的计算
检验的核心思想是比较 观测频数 ($O$) 与在零假设为真时的 期望频数 ($E$)。如果观测值与期望值相差很大,我们就有理由怀疑零假设。
在同质性检验中,如果零假设为真(所有总体分布相同),那么对于任何一个类别,它在各个总体中的比例都应该等于该类别在合并样本中的总比例。因此,单元格 $(i, j)$ 的期望频数 $E_{ij}$ 计算公式为:
$$ E_{ij} = \frac{(\text{第 } i \text{ 行的总计}) \times (\text{第 } j \text{ 列的总计})}{\text{总样本量}} = \frac{n_i \times C_j}{N} $$
这个公式的逻辑是:我们用合并样本中类别 $j$ 的总体比例 ($C_j/N$) 来估计在零假设下各个总体中类别 $j$ 的共同比例,然后将其乘以第 $i$ 个总体的样本量 ($n_i$),得到期望的观测数量。
### 4. 卡方检验统计量
卡方统计量 $\chi^2$ 用于度量观测频数与期望频数之间的总体差异。其计算公式为:
$$ \chi^2 = \sum_{\text{所有单元格}} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
这个值可以被理解为所有单元格中标准化的差异平方和。 * 如果 $\chi^2$ 值很小,说明观测频数与期望频数非常接近,支持零假设。 * 如果 $\chi^2$ 值很大,说明观测频数与期望频数存在显著差异,为拒绝零假设提供了证据。
### 5. 决策规则
计算出的 $\chi^2$ 统计量近似服从一个{{{卡方分布}}}。为了做出决策,我们需要:
1. 计算{{{自由度}}} (Degrees of Freedom, df):对于一个 $r \times c$ 的列联表,自由度的计算公式为: $$ df = (r - 1) \times (c - 1) $$ 自由度代表了在给定行和列的总计后,单元格中可以自由变化的数值个数。
2. 确定{{{p值}}} (p-value):p值是在零假设为真的前提下,获得当前观测到的 $\chi^2$ 值或更极端值的概率。它对应于自由度为 $df$ 的卡方分布曲线上,大于等于我们计算出的 $\chi^2$ 值的区域面积。
3. 与{{{显著性水平}}} ($\alpha$) 比较: * 如果 p值 $\le \alpha$(通常取0.05或0.01),我们 拒绝零假设。结论是:有足够的统计证据表明,这些总体的分类变量分布是不同的(即非同质的)。 * 如果 p值 $> \alpha$,我们 无法拒绝零假设。结论是:没有足够的统计证据表明这些总体的分布存在差异。
### 6. 检验的条件
为保证检验结果的有效性,需要满足以下条件: * 独立随机样本:数据必须是从每个总体中独立且随机抽取的。 * 大样本量:所有单元格的 期望频数 ($E_{ij}$) 都应足够大。一个普遍接受的经验法则是,所有期望频数都应大于等于5。如果这个条件不满足,可能需要合并某些行或列,或者使用其他更精确的检验方法(如{{{费希尔精确检验}}})。
## 与卡方独立性检验的区别
卡方同质性检验与{{{卡方独立性检验}}}在计算上完全相同,但它们的研究问题、抽样设计和结论解释有本质区别。这是学习者极易混淆的一点。
| 特征 | 卡方同质性检验 (Test of Homogeneity) | 卡方独立性检验 (Test of Independence) | | :--- | :--- | :--- | | 研究问题 | 比较 多个总体 在 一个分类变量 上的分布是否相同。 | 检验 一个总体 中的 两个分类变量 是否相互关联。 | | 抽样设计 | 从每个总体(如:不同年龄段)中独立抽取固定大小的样本。行总计是固定的。 | 从一个总体中抽取一个大样本,然后对样本中的每个个体按两个变量(如:性别和投票偏好)进行分类。行和列总计都是随机的。 | | 零假设 ($H_0$) | 不同总体的分布是同质的。 | 两个变量是相互独立的。 | | 结论解释 | 总体A和总体B在该变量上的分布相同/不同。 | 在该总体中,变量X和变量Y之间没有/存在关联。 |
简而言之: * 同质性:你有几个不同的袋子(总体),每个袋子里都装有不同颜色的球(类别)。你想知道每个袋子里各种颜色球的比例是否都一样。你从每个袋子里各抓一把(独立样本)来比较。 * 独立性:你只有一个大袋子(一个总体),里面装的球既有颜色(变量1)又有大小(变量2)。你想知道球的颜色和它的大小有没有关系。你从这个大袋子里抓一大把(一个样本),然后进行分析。
尽管计算过程一样,但理解其背后的不同逻辑对于正确应用和解释统计结果至关重要。