ARTICLE

卡方拟合度检验

卡方拟合度检验 (Chi-squared Goodness-of-fit Test) 卡方拟合度检验(Chi-squared Goodness-of-fit Test)是统计学中一种重要的假设检验方法,属于非参数检验的一种——主要用于检验分类数据的观测频数分布是否与某个理论或预期的概率分布相拟合。其核心思想是比较观测频数与期望频数之间的差异:差异小则数据与理

浏览 1 更新 2025-11-07

卡方拟合度检验 (Chi-squared Goodness-of-fit Test)

卡方拟合度检验(Chi-squared Goodness-of-fit Test)是统计学中一种重要的假设检验方法,属于非参数检验的一种——主要用于检验分类数据的观测频数分布是否与某个理论或预期的概率分布相拟合。其核心思想是比较观测频数与期望频数之间的差异:差异小则数据与理论分布拟合良好,差异大则有理由拒绝理论分布的假设。该检验是卡方检验家族的核心成员。

检验统计量与应用领域

卡方拟合度检验基于原假设H0H_0(观测分布与理论分布无显著差异,即所有分类pi=pi0p_i = p_{i0})和备择假设HaH_a(至少有一个分类的总体比例与假设不同)。检验统计量为:

χ2=i=1k(OiEi)2Ei\chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}

其中OiO_i为第ii类观测频数(样本中实际计数),Ei=n×pi0E_i = n \times p_{i0}为原假设为真的情况下的期望频数(n为总样本量、pi0p_{i0}为假设比例),kk为分类总数。统计量对每类差异的平方以期望频数为分母加权求和——所有OiO_i接近EiE_iχ2\chi^2值小表明拟合度好,差距大则χ2\chi^2值大表明拟合度差。

操作步骤:陈述假设→计算期望频数并检查假设条件→代入公式计算χ2\chi^2值→确定自由度df=k1df = k-1;若期望分布参数从样本估计则df=k1mdf = k-1-m——m为估计参数个数)→选定显著性水平α\alpha卡方分布临界值或计算p值→做出统计决策。

假设条件与解释

假设条件需满足:样本为简单随机抽样;分类互斥且完备(每个观测值落入且仅落入一个分类);期望频数足够大——经验规则为所有Ei1E_i \ge 1且至少80\%的分类Ei5E_i \ge 5——违则该规则时卡方分布近似的质量下降可能需合并相邻类别或使用精确检验(如Fisher精确检验)。

应用领域广泛覆盖:市场研究(检验消费者对不同产品偏好是否符合预期市场份额),遗传学(检验后代基因型是否符合孟德尔遗传定律比例如9:3:3:1),质量控制(检验次品数是否服从泊松分布),社会科学(检验群体分布是否与人口普查数据一致)。卡方拟合度检验因其通用性和对离散数据分布的简洁处理,与列联表检验的卡方独立性检验共同构成分类数据分析的基础工具集——在生物统计学计量经济学的离散选择模型诊断和机器学习的分类校准评估中有着广泛的应用。