ARTICLE
卡方统计量
卡方统计量 (Chi-squared Statistic) 卡方统计量(Chi-squared Statistic),通常表示为 ^2,是统计学中用于假设检验的一种核心统计量。它的根本用途是衡量观测频率(Observed Frequencies)与基于某一原假设(H_0)计算出的期望频率(Expected Frequencies)之间的差异或离散程度。 这个
卡方统计量 (Chi-squared Statistic)
卡方统计量(Chi-squared Statistic),通常表示为 ,是统计学中用于假设检验的一种核心统计量。它的根本用途是衡量观测频率(Observed Frequencies)与基于某一原假设()计算出的期望频率(Expected Frequencies)之间的差异或离散程度。
这个统计量构成了皮尔逊卡方检验(Pearson's chi-squared test)的基础,广泛应用于两种主要的分析场景:
- 拟合优度检验(Goodness-of-Fit Test):检验一组观测数据是否来自于某个特定的概率分布。
- 独立性检验(Test of Independence):检验两个分类变量(Categorical Variables)是否相互独立。
从本质上讲, 统计量量化了"我们实际观测到的情况"与"如果我们假设的理论(即原假设)是正确的,我们期望看到的情况"之间的总偏差。它由卡尔·皮尔逊(Karl Pearson)于 1900 年提出,是统计推断史上最深远的影响之一,将定性判断转化为定量决策。
核心定义与公式
卡方统计量的计算公式如下:
其中:
- 是卡方统计量的值。
- 是第 个类别的 观测频率(Observed Frequency),即在样本中实际出现的次数。
- 是第 个类别的 期望频率(Expected Frequency),即在原假设为真的前提下,理论上期望出现的次数。
- 是总的类别数量。
- 表示对所有 个类别进行求和。
公式解读:
- :每个类别中观测值与期望值之间的原始差异。
- :将差异平方,消除正负抵消效应,并使较大差异获得更高权重。
- :以期望频率为基准进行"标准化"——大小为 10 的差异在期望值 1000 时无足轻重,在期望值 20 时却极为显著。除以 将差异量级与期望基数绑定。
将所有类别的标准化平方差异求和,得到一个衡量整体拟合程度的单一数值。
统计量的性质与逻辑
卡方统计量的值具有以下关键性质:
- 非负性:作为平方和, 恒成立。
- 与差异的关系: \begin{itemize}
- 当 时,,数据与原假设高度吻合。
- 当 与 相差甚远时, 很大,为拒绝原假设提供证据。
\end{itemize}
在假设检验中,计算出的 值需与一个理论分布比较,判断其"大"到何种程度才算统计显著。这个理论分布正是 卡方分布(Chi-squared Distribution)。
卡方分布与自由度
在原假设为真且满足一定条件的前提下,卡方统计量近似服从由自由度(Degrees of Freedom, )参数决定的卡方分布。
自由度是构建统计量时能够自由变化的分量数量。其计算方式取决于检验类型:
- 拟合优度检验: \[ df = k - 1 - m \] 其中 为类别数, 为根据样本数据估计的、用于计算期望频率的参数个数。若期望频率的计算不需估计参数(如检验骰子是否均匀),则 ,。
- 独立性检验(在列联表中): \[ df = (r - 1)(c - 1) \] 其中 为列联表行数, 为列联表列数。
一旦计算出 统计量和自由度 ,便可将其与特定显著性水平()下的临界值比较,或直接计算p值(p-value),做出统计决策。卡方检验是右尾检验——仅当 过大时拒绝原假设。
应用场景详解
拟合优度检验(Goodness-of-Fit Test)
检验样本的频率分布是否与某个理论分布相符。
- 原假设():样本数据来自特定理论分布。
- 备择假设():样本数据不来自该理论分布。
示例:某公司声称其 M\&M 巧克力豆颜色分布为:30\% 棕色、20\% 黄色、20\% 红色、10\% 绿色、10\% 橙色、10\% 蓝色。随机抽取一袋 500 颗的样本:
\begin{tabular}{c|c|c|c} 颜色 \& 观测频率 \& 理论比例 \& 期望频率 \\ \hline 棕色 \& 140 \& 0.30 \& \\ 黄色 \& 108 \& 0.20 \& \\ 红色 \& 95 \& 0.20 \& \\ 绿色 \& 55 \& 0.10 \& \\ 橙色 \& 52 \& 0.10 \& \\ 蓝色 \& 50 \& 0.10 \& \\ \hline 总计 \& 500 \& 1.00 \& 500 \\ \end{tabular}
计算得:
\\
自由度 。在 水平下,。,不能拒绝原假设——数据与声称的颜色分布无显著差异。
独立性检验(Test of Independence)
判断两个分类变量是否存在关联。数据以列联表形式呈现。
- 原假设():两个变量相互独立。
- 备择假设():两个变量不独立(存在关联)。
独立性假设下,单元格 的期望频率为:
对所有单元格按公式 求和即得卡方统计量,自由度为 。
使用条件与假设
为确保卡方检验的有效性,必须满足:
- 随机抽样:数据必须从目标总体中随机抽样获得。
- 分类数据:数据必须是计数的频率数据,而非百分比或连续数据。
- 期望频率最小值(最关键):普遍接受的经验法则是所有 ;较宽松的标准允许不超过 20\% 的类别 ,但任何类别 。若不满足,卡方近似可能不可靠,应考虑合并类别或使用Fisher精确检验。
- 独立观测:每个观测值应彼此独立。
与其他统计量的关系及局限
卡方统计量是统计推断三大检验(Wald检验、似然比检验、拉格朗日乘数检验)之外最广泛使用的检验工具。它在列联表分析中的效应量衍生指标包括Cramér's V与Phi系数——卡方本身只判断关联"有无",不衡量"强弱"。
主要局限:其一,卡方统计量对样本量敏感——极大样本下,微不足道的实际差异也可能统计显著,因此必须同时报告效应量;其二,期望频数过小时卡方近似失真;其三,该统计量仅反映对独立性的偏离程度,不提供因果方向信息。