# 卡方分布 (Chi-squared Distribution)
卡方分布(Chi-squared Distribution),记作 $\chi^2$ 分布,是{{{概率论}}}和{{{数理统计}}}中一种极为重要的{{{连续概率分布}}}。它是通过对独立{{{标准正态分布}}} {{{随机变量}}}的平方和进行定义而得到的,这使得它在{{{推断统计学}}}中扮演着核心角色,尤其是在{{{假设检验}}}和{{{置信区间}}}的构建中。
卡方分布只有一个参数,即 {{{自由度}}} (degrees of freedom),通常记为 $k$。自由度决定了分布的具体形态。
## 定义与构建
卡方分布的定义是其在统计应用中如此广泛的关键。
假设 $Z_1, Z_2, \ldots, Z_k$ 是 $k$ 个相互独立的随机变量,并且每个变量都服从{{{标准正态分布}}},即 $Z_i \sim N(0, 1)$。
那么,这 $k$ 个随机变量的平方和所构成的新随机变量 $Q$: $$ Q = \sum_{i=1}^{k} Z_i^2 $$ 就服从自由度为 $k$ 的卡方分布。我们记作: $$ Q \sim \chi^2(k) $$ 这里的 自由度 $k$,直观上理解,就是构成这个分布的独立标准正态变量的个数。这个数值是理解和应用卡方分布的关键。由于 $Q$ 是平方和,所以卡方分布的取值永远是 非负的 ($Q \ge 0$)。
## 主要性质
卡方分布的性质由其自由度 $k$ 唯一确定。
#### 1. 概率密度函数 (PDF)
自由度为 $k$ 的卡方分布的{{{概率密度函数}}}为: $$ f(x; k) = \frac{1}{2^{k/2}\Gamma(k/2)} x^{k/2 - 1} e^{-x/2}, \quad \text{for } x > 0 $$ 其中: * $x$ 是随机变量的取值。 * $k$ 是自由度。 * $\Gamma(z)$ 是{{{伽马函数}}} (Gamma function),可以看作是阶乘向实数和复数的推广。
当 $x \le 0$ 时,$f(x; k) = 0$。
#### 2. 分布形态
卡方分布的形状随着自由度 $k$ 的变化而变化: * 当 $k=1$ 或 $k=2$ 时,分布的形状很特殊。$k=1$ 时,PDF在 $x=0$ 处趋近于无穷;$k=2$ 时,它是一个简单的{{{指数分布}}}。 * 当 $k > 2$ 时,分布曲线从0开始,达到一个峰值,然后向右侧延伸,呈现出明显的 右偏态 (positively skewed)。 * 随着自由度 $k$ 的增加,分布的偏度减小,形态逐渐变得对称,越来越接近一个{{{正态分布}}}。根据{{{中心极限定理}}}的推广,当 $k$ 足够大时,$\chi^2(k)$ 分布可以用均值为 $k$、方差为 $2k$ 的正态分布 $N(k, 2k)$ 来近似。
#### 3. 数学期望与方差
对于一个服从 $\chi^2(k)$ 分布的随机变量 $Q$: * {{{数学期望}}} (Mean): $E[Q] = k$ 这个性质非常直观。因为每个 $Z_i \sim N(0, 1)$,所以 $E[Z_i^2] = Var(Z_i) + (E[Z_i])^2 = 1 + 0^2 = 1$。因此,$k$ 个独立 $Z_i^2$ 的和的期望就是 $k$。 * {{{方差}}} (Variance): $Var(Q) = 2k$ * {{{众数}}} (Mode): 对于 $k \ge 2$,众数为 $k-2$。
#### 4. 可加性 (Additivity Property)
这是卡方分布的一个非常重要的特性。如果 $Q_1$ 和 $Q_2$ 是两个独立的随机变量,且分别服从自由度为 $k_1$ 和 $k_2$ 的卡方分布: $$ Q_1 \sim \chi^2(k_1) \quad \text{and} \quad Q_2 \sim \chi^2(k_2) $$ 那么它们的和 $Y = Q_1 + Q_2$ 也服从卡方分布,其自由度为两者自由度之和: $$ Y \sim \chi^2(k_1 + k_2) $$ 这一性质是许多统计检验方法能够成立的理论基础。
## 与其他统计分布的关系
卡方分布是统计学中四大分布(正态分布、t分布、$\chi^2$分布、F分布)之一,并与其他分布有着密切的联系。
* {{{正态分布}}} (Normal Distribution): 卡方分布由标准正态分布直接派生而来。 * {{{伽马分布}}} (Gamma Distribution): 卡方分布是伽马分布的一个特例。$\chi^2(k)$ 等价于形状参数 $\alpha = k/2$、尺度参数 $\beta = 2$ 的伽马分布。 * {{{t-分布}}} (Student's t-distribution): t-分布可以由一个标准正态分布的随机变量和一个独立的、经过自由度调整的卡方分布随机变量的比值来定义。 * {{{F-分布}}} (F-distribution): F-分布可以由两个独立的、各自除以其自由度的卡方分布随机变量的比值来定义。这使得F分布在{{{方差分析}}} (ANOVA) 中至关重要。
## 在统计推断中的应用
卡方分布之所以重要,主要在于它为多种假设检验提供了检验统计量的理论分布。这些检验统称为 卡方检验 (Chi-squared Test)。
#### 1. 拟合优度检验 (Goodness-of-Fit Test)
目的:检验一组观测频数是否与某个理论或期望的频数分布相符。
场景:假设你掷一个骰子600次,你想检验这个骰子是否是公平的。如果是公平的,每个点数(1到6)出现的期望次数都是100次。拟合优度检验可以帮助你判断观测到的次数(例如,1点出现95次,2点出现108次$...$)与期望次数之间的差异是否在随机波动的合理范围内。
检验统计量: $$ \chi^2 = \sum_{i=1}^{c} \frac{(O_i - E_i)^2}{E_i} $$ 其中: * $O_i$ 是类别 $i$ 的 观测频数 (Observed frequency)。 * $E_i$ 是类别 $i$ 的 期望频数 (Expected frequency)。 * $c$ 是分类的总数。
这个统计量近似服从自由度为 $k = c-1$ 的卡方分布(如果期望频数是基于样本数据估算的参数,则自由度会进一步减少)。计算出的 $\chi^2$ 值越大,表明观测与期望的偏差越大,拒绝“数据符合理论分布”这一{{{原假设}}}的理由就越充分。
#### 2. 独立性检验 (Test for Independence)
目的:检验两个分类变量之间是否存在关联。
场景:研究人员想知道吸烟习惯(吸烟/不吸烟)与是否患有某种肺部疾病(是/否)之间是否存在统计学上的关联。他们可以收集一组样本数据,并将其整理成一个 {{{列联表}}} (Contingency Table)。
检验统计量:公式与拟合优度检验相同,但期望频数 $E_{ij}$ 的计算方式不同。在独立性假设下,单元格 $(i, j)$ 的期望频数由行总计和列总计计算得出: $$ E_{ij} = \frac{(\text{Row } i \text{ Total}) \times (\text{Column } j \text{ Total})}{\text{Grand Total}} $$ 这个统计量近似服从自由度为 $k = (r-1)(c-1)$ 的卡方分布,其中 $r$ 是行数, $c$ 是列数。同样,大的 $\chi^2$ 值表明两个变量可能不独立。
#### 3. 单个总体方差的检验与置信区间
目的:对来自正态总体的单个样本的{{{方差}}} $\sigma^2$ 进行假设检验或构建置信区间。
原理:如果样本来自一个正态总体,那么统计量 $$ \chi^2 = \frac{(n-1)s^2}{\sigma_0^2} $$ 服从自由度为 $n-1$ 的卡方分布。其中: * $n$ 是{{{样本容量}}}。 * $s^2$ 是{{{样本方差}}}。 * $\sigma_0^2$ 是原假设中设定的{{{总体方差}}}。
这个关系不仅可以用来检验 $H_0: \sigma^2 = \sigma_0^2$,也可以反解出来,为总体方差 $\sigma^2$ 构建一个置信区间。