ARTICLE

卡方分布

卡方分布 (Chi-squared Distribution) 卡方分布(Chi-squared Distribution),记作 ^2 分布,是概率论和数理统计中一种极为重要的连续概率分布。它是通过对独立标准正态分布 随机变量的平方和进行定义而得到的,这使得它在推断统计学中扮演着核心角色,尤其是在假设检验和置信区间的构建中。 卡方分布只有一个参数,即 自由

浏览 213 更新 2025-10-22

卡方分布 (Chi-squared Distribution)

卡方分布(Chi-squared Distribution),记作 χ2 \chi^2 分布,是概率论数理统计中一种极为重要的连续概率分布。它是通过对独立标准正态分布 随机变量的平方和进行定义而得到的,这使得它在推断统计学中扮演着核心角色,尤其是在假设检验置信区间的构建中。

卡方分布只有一个参数,即 自由度 (degrees of freedom),通常记为 k k 。自由度决定了分布的具体形态。

定义与构建

卡方分布的定义是其在统计应用中如此广泛的关键。

假设 Z1,Z2,,Zk Z_1, Z_2, \ldots, Z_k k k 个相互独立的随机变量,并且每个变量都服从标准正态分布,即 ZiN(0,1) Z_i \sim N(0, 1)

那么,这 k k 个随机变量的平方和所构成的新随机变量 Q Q

Q=i=1kZi2Q = \sum_{i=1}^{k} Z_i^2

就服从自由度为 k k 的卡方分布。我们记作:

Qχ2(k)Q \sim \chi^2(k)

这里的 自由度 k k ,直观上理解,就是构成这个分布的独立标准正态变量的个数。这个数值是理解和应用卡方分布的关键。由于 Q Q 是平方和,所以卡方分布的取值永远是 非负的 (Q0 Q \ge 0 )。

主要性质

卡方分布的性质由其自由度 k k 唯一确定。

1. 概率密度函数 (PDF)

自由度为 k k 的卡方分布的概率密度函数为:

f(x;k)=12k/2Γ(k/2)xk/21ex/2,for x>0f(x; k) = \frac{1}{2^{k/2}\Gamma(k/2)} x^{k/2 - 1} e^{-x/2}, \quad \text{for } x > 0

其中:

  • x x 是随机变量的取值。
  • k k 是自由度。
  • Γ(z) \Gamma(z) 伽马函数 (Gamma function),可以看作是阶乘向实数和复数的推广。

x0 x \le 0 时,f(x;k)=0 f(x; k) = 0

2. 分布形态

卡方分布的形状随着自由度 k k 的变化而变化:

  • k=1 k=1 k=2 k=2 时,分布的形状很特殊。k=1 k=1 时,PDF在 x=0 x=0 处趋近于无穷;k=2 k=2 时,它是一个简单的指数分布
  • k>2 k > 2 时,分布曲线从0开始,达到一个峰值,然后向右侧延伸,呈现出明显的 右偏态 (positively skewed)
  • 随着自由度 k k 的增加,分布的偏度减小,形态逐渐变得对称,越来越接近一个正态分布。根据中心极限定理的推广,当 k k 足够大时,χ2(k) \chi^2(k) 分布可以用均值为 k k 、方差为 2k 2k 的正态分布 N(k,2k) N(k, 2k) 来近似。

3. 数学期望与方差

对于一个服从 χ2(k) \chi^2(k) 分布的随机变量 Q Q

这个性质非常直观。因为每个 ZiN(0,1) Z_i \sim N(0, 1) ,所以 E[Zi2]=Var(Zi)+(E[Zi])2=1+02=1 E[Z_i^2] = Var(Z_i) + (E[Z_i])^2 = 1 + 0^2 = 1 。因此,k k 个独立 Zi2 Z_i^2 的和的期望就是 k k

  • 方差 (Variance): Var(Q)=2k Var(Q) = 2k
  • 众数 (Mode): 对于 k2 k \ge 2 ,众数为 k2 k-2

4. 可加性 (Additivity Property)

这是卡方分布的一个非常重要的特性。如果 Q1 Q_1 Q2 Q_2 是两个独立的随机变量,且分别服从自由度为 k1 k_1 k2 k_2 的卡方分布:

Q1χ2(k1)andQ2χ2(k2)Q_1 \sim \chi^2(k_1) \quad \text{and} \quad Q_2 \sim \chi^2(k_2)

那么它们的和 Y=Q1+Q2 Y = Q_1 + Q_2 也服从卡方分布,其自由度为两者自由度之和:

Yχ2(k1+k2)Y \sim \chi^2(k_1 + k_2)

这一性质是许多统计检验方法能够成立的理论基础。

与其他统计分布的关系

卡方分布是统计学中四大分布(正态分布、t分布、χ2 \chi^2 分布、F分布)之一,并与其他分布有着密切的联系。

  • 正态分布 (Normal Distribution): 卡方分布由标准正态分布直接派生而来。
  • 伽马分布 (Gamma Distribution): 卡方分布是伽马分布的一个特例。χ2(k) \chi^2(k) 等价于形状参数 α=k/2 \alpha = k/2 、尺度参数 β=2 \beta = 2 的伽马分布。
  • t-分布 (Student's t-distribution): t-分布可以由一个标准正态分布的随机变量和一个独立的、经过自由度调整的卡方分布随机变量的比值来定义。
  • F-分布 (F-distribution): F-分布可以由两个独立的、各自除以其自由度的卡方分布随机变量的比值来定义。这使得F分布在方差分析 (ANOVA) 中至关重要。

在统计推断中的应用

卡方分布之所以重要,主要在于它为多种假设检验提供了检验统计量的理论分布。这些检验统称为 卡方检验 (Chi-squared Test)

1. 拟合优度检验 (Goodness-of-Fit Test)

目的:检验一组观测频数是否与某个理论或期望的频数分布相符。

场景:假设你掷一个骰子600次,你想检验这个骰子是否是公平的。如果是公平的,每个点数(1到6)出现的期望次数都是100次。拟合优度检验可以帮助你判断观测到的次数(例如,1点出现95次,2点出现108次... ... )与期望次数之间的差异是否在随机波动的合理范围内。

检验统计量

χ2=i=1c(OiEi)2Ei\chi^2 = \sum_{i=1}^{c} \frac{(O_i - E_i)^2}{E_i}

其中:

  • Oi O_i 是类别 i i 观测频数 (Observed frequency)
  • Ei E_i 是类别 i i 期望频数 (Expected frequency)
  • c c 是分类的总数。

这个统计量近似服从自由度为 k=c1 k = c-1 的卡方分布(如果期望频数是基于样本数据估算的参数,则自由度会进一步减少)。计算出的 χ2 \chi^2 值越大,表明观测与期望的偏差越大,拒绝"数据符合理论分布"这一原假设的理由就越充分。

2. 独立性检验 (Test for Independence)

目的:检验两个分类变量之间是否存在关联。

场景:研究人员想知道吸烟习惯(吸烟/不吸烟)与是否患有某种肺部疾病(是/否)之间是否存在统计学上的关联。他们可以收集一组样本数据,并将其整理成一个 列联表 (Contingency Table)

检验统计量:公式与拟合优度检验相同,但期望频数 Eij E_{ij} 的计算方式不同。在独立性假设下,单元格 (i,j) (i, j) 的期望频数由行总计和列总计计算得出:

Eij=(Row i Total)×(Column j Total)Grand TotalE_{ij} = \frac{(\text{Row } i \text{ Total}) \times (\text{Column } j \text{ Total})}{\text{Grand Total}}

这个统计量近似服从自由度为 k=(r1)(c1) k = (r-1)(c-1) 的卡方分布,其中 r r 是行数, c c 是列数。同样,大的 χ2 \chi^2 值表明两个变量可能不独立。

3. 单个总体方差的检验与置信区间

目的:对来自正态总体的单个样本的方差 σ2 \sigma^2 进行假设检验或构建置信区间。

原理:如果样本来自一个正态总体,那么统计量

χ2=(n1)s2σ02\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}

服从自由度为 n1 n-1 的卡方分布。其中:

这个关系不仅可以用来检验 H0:σ2=σ02 H_0: \sigma^2 = \sigma_0^2 ,也可以反解出来,为总体方差 σ2 \sigma^2 构建一个置信区间。

4. 卡方分布表与临界值

在实际应用中,卡方检验的结果需要通过与临界值比较来进行判断。统计学家编制了卡方分布表,列出不同自由度 k k 和显著性水平 α \alpha 下的临界值 χα2(k) \chi^2_{\alpha}(k) 。临界值满足 P(χ2(k)>χα2(k))=α P(\chi^2(k) > \chi^2_{\alpha}(k)) = \alpha 。若计算出的检验统计量大于临界值,则在显著性水平 α \alpha 下拒绝原假设。如今,统计软件和计算工具已能直接给出精确的 p值,但理解卡方分布表的原理对于掌握统计推断的思维仍然十分重要。