ARTICLE
卡方同质性检验
卡方同质性检验 (Chi-squared Test of Homogeneity) 卡方同质性检验是一种统计推断方法,用于检验两个或多个不同总体在某个单一分类变量上的分布是否相同——即这些群体在该变量各取值类别上的比例分布是否同质。该检验属于卡方检验家族,与检验两变量关联性的卡方独立性检验在计算公式上完全相同,但研究问题、抽样设计及结论解释有本质区别,是统计
卡方同质性检验 (Chi-squared Test of Homogeneity)
卡方同质性检验是一种统计推断方法,用于检验两个或多个不同总体在某个单一分类变量上的分布是否相同——即这些群体在该变量各取值类别上的比例分布是否同质。该检验属于卡方检验家族,与检验两变量关联性的卡方独立性检验在计算公式上完全相同,但研究问题、抽样设计及结论解释有本质区别,是统计初学者极易混淆的一对概念。
研究问题与假设设立
同质性检验的核心问题是:不同总体在某个分类变量上的分布是否一致?形式化地,设有 个总体,每个总体中分类变量有 个可能的取值类别。令 表示第 个总体中类别 的真实比例,则:
与假设检验的一般逻辑一致,检验的目标是评估观测数据与 的兼容程度。值得注意的是,同质性检验的抽样设计要求从每个总体中独立抽取固定大小的样本,这意味着列联表的行总计在设计阶段即已确定——这是区分同质性检验与独立性检验的关键线索。
列联表与期望频数
数据以 列联表组织: 行对应各总体(或独立样本), 列对应分类变量的各个取值类别。单元格记录观测频数 ,即第 个总体中属于第 类的观测个数。记行总计为 ,列总计为 ,总样本量为 。
检验的核心思想是:在 为真时,各总体中类别 的比例应相同,且等于合并样本中该类别的总体比例 。据此,第 单元格的期望频数为:
这个公式将行总计与列总计的乘积除以总样本量,其直觉是:若分布同质,则应按总比例将每个总体的样本分配至各列。
卡方统计量与决策规则
卡方统计量 度量所有单元格中观测频数与期望频数的标准化差异:
值越大,表明观测数据与 预期的偏离越严重。在 为真且样本量足够大时,该统计量近似服从卡方分布,自由度为:
自由度的直观含义是:在行和列的总计约束下,列联表中可自由变化的单元格数量。
决策步骤如下:(1) 计算 统计量;(2) 在自由度为 的卡方分布下计算p值——即观测到当前 值或更极端值的右尾概率;(3) 将 p 值与预设的显著性水平 (通常取 0.05 或 0.01)比较。若 ,拒绝 ,结论为各总体在该分类变量上的分布存在显著差异;若 ,则无法拒绝 ,即数据未提供足够证据表明分布不同。
使用条件与注意事项
检验有效性的前提条件包括:
- 独立随机抽样:每个总体的样本必须独立且随机地抽取,个体观测之间不存在依赖关系。
- 期望频数条件:所有单元格的期望频数 均应足够大。最常用的经验法则是所有 ,部分教材要求不超过 20\% 的单元格 。若违背此条件,卡方近似可能失效,此时可考虑:(a) 合并稀疏的行或列类别;(b) 使用费希尔精确检验(尤其适用于 表);(c) 采用蒙特卡洛模拟方法估计 p 值。
此外,检验的结论只能是"拒绝"或"无法拒绝" ,不能"接受" ;p 值的大小反映的是证据的强弱,而非效应量的大小。在实际报告中,建议同时汇报 值、自由度、p 值和样本量。
与卡方独立性检验的核心辨析
这是统计教学中反复强调的难点。尽管两个检验的 计算公式、期望频数公式和自由度公式完全相同,但它们在研究设计层面的差异决定了各自适用的场景:
- 研究问题:同质性检验问"这些总体的分布是否相同";独立性检验问"这两个变量是否有关联"。
- 抽样设计:同质性检验中,研究者事先划定了总体(如年龄组、治疗组),然后从每个总体分别抽取样本——行总计是固定的。独立性检验中,研究者从单一总体抽取一个样本,然后对每个个体按两个变量交叉分类——行和列总计都是随机的。
- 结论指向:同质性检验的结论是关于总体间可比较性的("A 组和 B 组的偏好结构相同吗");独立性检验的结论是关于变量间关系的("偏好与年龄相关吗")。
直观比喻:同质性检验好比你有红、蓝、绿三个袋子(总体),你想知道每个袋子里各色球的比例是否一致——你从每个袋子各取一把来比较。独立性检验好比你只有一个袋子,你想知道球的颜色和材质是否有关——你从这个袋子取一大把,交叉统计颜色-材质组合的频数。理解这一区分,对于正确设计研究方案和准确解读统计软件输出至关重要。
典型应用场景
卡方同质性检验在实证研究中用途广泛:
- 市场研究:比较不同年龄段消费者(青年、中年、老年)对某产品的偏好(喜欢、中立、不喜欢)分布是否同质,以确定是否需要针对不同群体制定差异化营销策略。
- 医学与公共卫生:检验接受不同治疗方案(药物 A、药物 B、安慰剂)的患者在康复结果(痊愈、好转、无效)上的分布是否存在差异,为疗效比较提供统计证据。
- 社会科学与政策评估:研究不同教育背景或不同地区的居民在政策态度、投票倾向等分类变量上的分布一致性,为政策制定的公平性讨论提供数据支持。
在这些应用中,总体(行)是预先确定的,研究者关心的是行与行之间比例轮廓的可比性——这正是同质性检验的设计初衷。