知经 KNOWECON · 卓越的经济金融统计数学学习平台

F分布

# F分布 (F-distribution)

F分布 (F-distribution),也称为 Fisher-Snedecor分布,是{{{数理统计}}}中一种重要的{{{连续概率分布}}}。它在{{{假设检验}}}中扮演着核心角色,尤其是在{{{方差分析}}} (Analysis of Variance, ANOVA)、{{{回归分析}}}以及比较两个总体方差的场景中。F分布由其两个参数——分子自由度和分母自由度——唯一确定。

## F分布的定义与构造

F分布最核心的来源是两个独立的、服从{{{卡方分布}}} (Chi-squared distribution) 的随机变量的比率。

假设有两个独立的{{{随机变量}}} $U_1$ 和 $U_2$,它们分别服从自由度为 $d_1$ 和 $d_2$ 的卡方分布: $$ U_1 \sim \chi^2(d_1) $$ $$ U_2 \sim \chi^2(d_2) $$

那么,将这两个随机变量分别除以其各自的{{{自由度}}} (degrees of freedom),得到的比率 $F$ 将服从一个以 $d_1$ 和 $d_2$ 为参数的F分布。

$$ F = \frac{U_1 / d_1}{U_2 / d_2} \sim F(d_1, d_2) $$

这里: * $d_1$ 被称为 分子自由度 (numerator degrees of freedom)。 * $d_2$ 被称为 分母自由度 (denominator degrees of freedom)。

这个构造方式是理解F分布在各种统计检验中如何产生的关键。例如,在方差分析中,{{{组间均方}}} (Mean Square Between) 和{{{组内均方}}} (Mean Square Within) 在零假设下都是对总体方差的无偏估计,且与卡方分布相关,它们的比值因此构成了F统计量。

## F分布的性质

### 1. 概率密度函数 (PDF)

一个服从 $F(d_1, d_2)$ 分布的随机变量 $X$ 的概率密度函数为:

$$ f(x; d_1, d_2) = \frac{\sqrt{\frac{(d_1 x)^{d_1} d_2^{d_2}}{(d_1 x + d_2)^{d_1+d_2}}}}{x B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)} $$

其中 $x \ge 0$,$d_1, d_2 > 0$。$B(\cdot, \cdot)$ 是{{{贝塔函数}}} (Beta function)。这个公式对于初学者而言较为复杂,理解其背后的构造和分布的形状更为重要。

### 2. 主要特征

* 范围:F分布的取值范围是非负的,即 $[0, \infty)$。这是因为它是由两个非负变量(方差或均方)的比率构成的。 * 形状:F分布是 右偏态 (positively skewed) 的。随着两个自由度 $d_1$ 和 $d_2$ 的增加,其形状会逐渐变得不那么偏斜,并趋于对称。 * 参数:F分布完全由其分子自由度 $d_1$ 和分母自由度 $d_2$ 决定。改变这两个自由度会改变分布的形状、均值和方差。 * 倒数性质:F分布有一个非常有用的性质。如果一个随机变量 $X \sim F(d_1, d_2)$,那么它的倒数 $1/X$ 将服从一个分子和分母自由度颠倒的F分布: $$ \frac{1}{X} \sim F(d_2, d_1) $$ 这个性质在查找F分布表中的左侧尾部概率时非常有用。

### 3. 期望与方差

F分布的{{{期望}}} (Mean) 和{{{方差}}} (Variance) 分别为:

* 期望:$$ E[F] = \frac{d_2}{d_2 - 2} \quad (\text{要求 } d_2 > 2) $$ 当分母自由度 $d_2$ 很大时,F分布的均值约等于1。这符合直觉,因为当分母自由度足够大时,$U_2/d_2$ 趋近于其期望值1,F统计量的值主要由 $U_1/d_1$ 决定。

* 方差:$$ \text{Var}[F] = \frac{2d_2^2(d_1+d_2-2)}{d_1(d_2-2)^2(d_2-4)} \quad (\text{要求 } d_2 > 4) $$

### 4. 与其他分布的关系

* 与{{{t分布}}}的关系:一个自由度为 $v$ 的{{{t分布}}}随机变量的平方,服从分子自由度为1、分母自由度为 $v$ 的F分布。 $$ \text{如果 } T \sim t(v), \text{ 那么 } T^2 \sim F(1, v) $$ 这解释了为什么在{{{简单线性回归}}}中,对单个系数的t检验和对整个模型的F检验(当只有一个预测变量时)是等价的。

* 与{{{卡方分布}}}的关系:如定义所述,F分布是两个标准化卡方变量的比率。此外,当分母自由度 $d_2 \to \infty$ 时,$d_1 \cdot F(d_1, d_2)$ 的分布趋近于自由度为 $d_1$ 的卡方分布 $\chi^2(d_1)$。

## F分布在统计推断中的应用

F分布是许多统计检验中{{{检验统计量}}}的{{{抽样分布}}}。这些检验统称为 F检验 (F-test)

### 1. 方差分析 (ANOVA)

这是F分布最经典的应用。ANOVA用于检验三个或更多个总体的均值是否相等。 * 零假设 ($H_0$):所有总体的均值都相等 ($\mu_1 = \mu_2 = \dots = \mu_k$)。 * 备择假设 ($H_A$):至少有一个总体的均值与其他不同。

F检验统计量被计算为: $$ F = \frac{\text{组间均方 (MSB)}}{\text{组内均方 (MSW)}} = \frac{\text{SSB}/(k-1)}{\text{SSW}/(N-k)} $$ 在零假设成立的条件下,这个统计量服从 $F(k-1, N-k)$ 分布,其中 $k$ 是组数,$N$ 是总样本量。如果计算出的F值很大(大于某个{{{临界值}}}),则拒绝零假设,认为各组均值不全相等。

### 2. 回归分析 (Regression Analysis)

在{{{多元线性回归}}}中,F检验用于评估整个模型的显著性。 * 零假设 ($H_0$):所有自变量的系数都为零 ($\beta_1 = \beta_2 = \dots = \beta_p = 0$),即模型没有任何解释能力。 * 备择假设 ($H_A$):至少有一个系数不为零,即模型具有解释能力。

F检验统计量被计算为: $$ F = \frac{\text{回归均方 (MSR)}}{\text{残差均方 (MSE)}} = \frac{\text{SSR}/p}{\text{SSE}/(n-p-1)} $$ 在零假设下,此统计量服从 $F(p, n-p-1)$ 分布,其中 $p$ 是自变量的个数,$n$ 是样本量。一个大的F值意味着模型整体是{{{统计显著}}}的。

此外,F检验还可以用于检验模型中一部分系数是否为零(例如,比较一个包含所有变量的“完整模型”和一个去掉部分变量的“简化模型”)。

### 3. 检验两个总体的方差是否相等

F检验也可以直接用来比较两个服从{{{正态分布}}}的独立总体的方差是否相等。 * 零假设 ($H_0$):$\sigma_1^2 = \sigma_2^2$ * 备择假设 ($H_A$):$\sigma_1^2 \ne \sigma_2^2$ (或单侧检验)

检验统计量是两个样本方差的比: $$ F = \frac{S_1^2}{S_2^2} $$ 其中 $S_1^2$ 和 $S_2^2$ 分别是来自两个总体的样本方差。为了方便查表,通常将较大的样本方差放在分子上。在零假设下,该统计量服从 $F(n_1-1, n_2-1)$ 分布,其中 $n_1$ 和 $n_2$ 是两个样本的容量。

## 总结

F分布是连接样本方差和总体方差的重要桥梁,它通过两个独立卡方变量的比率构建而成。其核心思想是,如果两个样本方差(或方差的估计量,如ANOVA中的MSB和MSW)都是对同一个总体方差的估计,那么它们的比值应该在1附近波动。如果该比值显著偏离1,则我们有理由相信它们所估计的方差来源不同,或者背后的均值存在差异。因此,F分布构成了现代统计学中比较 variances 和 means 的强大工具的基础,在经济学、金融学、生物学、工程学等众多领域都有着广泛的应用。