ARTICLE

卡方统计量

卡方统计量 (Chi-squared Statistic) 卡方统计量（Chi-squared Statistic），通常表示为 ^2，是统计学中用于假设检验的一种核心统计量。它的根本用途是衡量观测频率（Observed Frequencies）与基于某一原假设（H_0）计算出的期望频率（Expected Frequencies）之间的差异或离散程度。这个

浏览 26 更新 2025-10-26

卡方统计量 (Chi-squared Statistic)

卡方统计量（Chi-squared Statistic），通常表示为 $\chi^2$ ，是统计学中用于假设检验的一种核心统计量。它的根本用途是衡量观测频率（Observed Frequencies）与基于某一原假设（ $H_0$ ）计算出的期望频率（Expected Frequencies）之间的差异或离散程度。

这个统计量构成了皮尔逊卡方检验（Pearson's chi-squared test）的基础，广泛应用于两种主要的分析场景：

拟合优度检验（Goodness-of-Fit Test）：检验一组观测数据是否来自于某个特定的概率分布。
独立性检验（Test of Independence）：检验两个分类变量（Categorical Variables）是否相互独立。

从本质上讲， $\chi^2$ 统计量量化了"我们实际观测到的情况"与"如果我们假设的理论（即原假设）是正确的，我们期望看到的情况"之间的总偏差。它由卡尔·皮尔逊（Karl Pearson）于 1900 年提出，是统计推断史上最深远的影响之一，将定性判断转化为定量决策。

核心定义与公式

卡方统计量的计算公式如下：

\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}

其中：

$\chi^2$ 是卡方统计量的值。
$O_i$ 是第 $i$ 个类别的 观测频率（Observed Frequency），即在样本中实际出现的次数。
$E_i$ 是第 $i$ 个类别的 期望频率（Expected Frequency），即在原假设为真的前提下，理论上期望出现的次数。
$k$ 是总的类别数量。
$\sum_{i=1}^{k}$ 表示对所有 $k$ 个类别进行求和。

公式解读：

$(O_i - E_i)$ ：每个类别中观测值与期望值之间的原始差异。
$(O_i - E_i)^2$ ：将差异平方，消除正负抵消效应，并使较大差异获得更高权重。
$\frac{(O_i - E_i)^2}{E_i}$ ：以期望频率为基准进行"标准化"——大小为 10 的差异在期望值 1000 时无足轻重，在期望值 20 时却极为显著。除以 $E_i$ 将差异量级与期望基数绑定。

将所有类别的标准化平方差异求和，得到一个衡量整体拟合程度的单一数值。

统计量的性质与逻辑

卡方统计量的值具有以下关键性质：

非负性：作为平方和， $\chi^2 \ge 0$ 恒成立。
与差异的关系： \begin{itemize}
当 $O_i \approx E_i$ 时， $\chi^2 \to 0$ ，数据与原假设高度吻合。
当 $O_i$ 与 $E_i$ 相差甚远时， $\chi^2$ 很大，为拒绝原假设提供证据。

\end{itemize}

在假设检验中，计算出的 $\chi^2$ 值需与一个理论分布比较，判断其"大"到何种程度才算统计显著。这个理论分布正是 卡方分布（Chi-squared Distribution）。

卡方分布与自由度

在原假设为真且满足一定条件的前提下，卡方统计量近似服从由自由度（Degrees of Freedom, $df$ ）参数决定的卡方分布。

自由度是构建统计量时能够自由变化的分量数量。其计算方式取决于检验类型：

拟合优度检验： \[ df = k - 1 - m \] 其中 $k$ 为类别数， $m$ 为根据样本数据估计的、用于计算期望频率的参数个数。若期望频率的计算不需估计参数（如检验骰子是否均匀），则 $m = 0$ ， $df = k - 1$ 。
独立性检验（在列联表中）： \[ df = (r - 1)(c - 1) \] 其中 $r$ 为列联表行数， $c$ 为列联表列数。

一旦计算出 $\chi^2$ 统计量和自由度 $df$ ，便可将其与特定显著性水平（ $\alpha$ ）下的临界值比较，或直接计算p值（p-value），做出统计决策。卡方检验是右尾检验——仅当 $\chi^2$ 过大时拒绝原假设。

应用场景详解

拟合优度检验（Goodness-of-Fit Test）

检验样本的频率分布是否与某个理论分布相符。

原假设（ $H_0$ ）：样本数据来自特定理论分布。
备择假设（ $H_1$ ）：样本数据不来自该理论分布。

示例：某公司声称其 M\&M 巧克力豆颜色分布为：30\% 棕色、20\% 黄色、20\% 红色、10\% 绿色、10\% 橙色、10\% 蓝色。随机抽取一袋 500 颗的样本：

\begin{tabular}{c|c|c|c} 颜色 \& 观测频率 $O$ \& 理论比例 \& 期望频率 $E$ \\ \hline 棕色 \& 140 \& 0.30 \& $500 \times 0.30 = 150$ \\ 黄色 \& 108 \& 0.20 \& $500 \times 0.20 = 100$ \\ 红色 \& 95 \& 0.20 \& $500 \times 0.20 = 100$ \\ 绿色 \& 55 \& 0.10 \& $500 \times 0.10 = 50$ \\ 橙色 \& 52 \& 0.10 \& $500 \times 0.10 = 50$ \\ 蓝色 \& 50 \& 0.10 \& $500 \times 0.10 = 50$ \\ \hline 总计 \& 500 \& 1.00 \& 500 \\ \end{tabular}

计算得：

\chi^2 = \frac{(140-150)^2}{150} + \frac{(108-100)^2}{100} + \frac{(95-100)^2}{100} + \frac{(55-50)^2}{50} + \frac{(52-50)^2}{50} + \frac{(50-50)^2}{50}

\chi^2 \approx 0.667 + 0.64 + 0.25 + 0.5 + 0.08 + 0 = 2.137

自由度 $df = 6 - 1 = 5$ 。在 $\alpha = 0.05$ 水平下， $\chi^2_{0.05, 5} = 11.07$ 。 $2.137 < 11.07$ ，不能拒绝原假设——数据与声称的颜色分布无显著差异。

独立性检验（Test of Independence）

判断两个分类变量是否存在关联。数据以列联表形式呈现。

原假设（ $H_0$ ）：两个变量相互独立。
备择假设（ $H_1$ ）：两个变量不独立（存在关联）。

独立性假设下，单元格 $(i, j)$ 的期望频率为：

E_{ij} = \frac{(\text{第 } i \text{ 行的总计}) \times (\text{第 } j \text{ 列的总计})}{\text{样本总数}}

对所有单元格按公式 $\sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$ 求和即得卡方统计量，自由度为 $(r-1)(c-1)$ 。

使用条件与假设

为确保卡方检验的有效性，必须满足：

随机抽样：数据必须从目标总体中随机抽样获得。
分类数据：数据必须是计数的频率数据，而非百分比或连续数据。
期望频率最小值（最关键）：普遍接受的经验法则是所有 $E_i \ge 5$ ；较宽松的标准允许不超过 20\% 的类别 $E_i < 5$ ，但任何类别 $E_i \ge 1$ 。若不满足，卡方近似可能不可靠，应考虑合并类别或使用Fisher精确检验。
独立观测：每个观测值应彼此独立。

与其他统计量的关系及局限

卡方统计量是统计推断三大检验（Wald检验、似然比检验、拉格朗日乘数检验）之外最广泛使用的检验工具。它在列联表分析中的效应量衍生指标包括Cramér's V与Phi系数——卡方本身只判断关联"有无"，不衡量"强弱"。

主要局限：其一，卡方统计量对样本量敏感——极大样本下，微不足道的实际差异也可能统计显著，因此必须同时报告效应量；其二，期望频数过小时卡方近似失真；其三，该统计量仅反映对独立性的偏离程度，不提供因果方向信息。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。