ARTICLE

F-分布

F-分布 (F-distribution) F-分布 (F-distribution),全称为 费雪-斯内德克分布 (Fisher-Snedecor distribution),是 概率论 和 统计学 中一种至关重要的 连续概率分布。它以统计学家罗纳德·艾尔默·费雪 (Ronald Fisher) 和乔治·斯内德克 (George Snedecor) 的名字

浏览 56 更新 2025-10-26

F-分布 (F-distribution)

F-分布 (F-distribution),全称为 费雪-斯内德克分布 (Fisher-Snedecor distribution),是 概率论统计学 中一种至关重要的 连续概率分布。它以统计学家罗纳德·艾尔默·费雪 (Ronald Fisher) 和乔治·斯内德克 (George Snedecor) 的名字命名。F-分布的核心应用在于 F检验 (F-test),广泛用于比较多个总体的均值(如在 方差分析 中)和评估 线性回归模型 的显著性。F-分布由两个参数定义:分子 自由度 d1d_1 和分母自由度 d2d_2

定义与构造

F-分布的理论基础源于 卡方分布 (Chi-squared distribution)。假设有两个独立的随机变量 UUVV

  • UU 服从自由度为 d1d_1 的卡方分布,记作 Uχ2(d1)U \sim \chi^2(d_1)
  • VV 服从自由度为 d2d_2 的卡方分布,记作 Vχ2(d2)V \sim \chi^2(d_2)

将这两个随机变量分别除以其各自的自由度,然后求其比值,所得到的新的随机变量 FF 就服从分子自由度为 d1d_1、分母自由度为 d2d_2 的 F-分布:

F=U/d1V/d2F(d1,d2)F = \frac{U/d_1}{V/d_2} \sim F(d_1, d_2)

从这个构造中可直接得出两个重要结论:F-分布取值非负 (F0F \ge 0),且自由度顺序至关重要——F(d1,d2)F(d_1, d_2)F(d2,d1)F(d_2, d_1) 是两种不同的分布。一个重要性质是:若 XF(d1,d2)X \sim F(d_1, d_2),则 1/XF(d2,d1)1/X \sim F(d_2, d_1)

主要性质

概率密度函数

F-分布的概率密度函数形式较为复杂,但揭示了其形状完全由 d1d_1d2d_2 决定:

f(x;d1,d2)=(d1x)d1d2d2(d1x+d2)d1+d2xB ⁣(d12,d22),x0f(x; d_1, d_2) = \frac{\sqrt{\frac{(d_1 x)^{d_1} d_2^{d_2}}{(d_1 x + d_2)^{d_1+d_2}}}}{x B\!\left(\frac{d_1}{2}, \frac{d_2}{2}\right)}, \quad x \ge 0

其中 BBBeta函数。实际应用中通常通过统计软件或 F-分布表获得概率或 临界值,不直接使用此公式。

分布形状

F-分布是 右偏态 (positively skewed) 的,其峰值接近 1。随着 d1d_1d2d_2 的增大,偏度减小,分布逐渐对称。当 d1d_1d2d_2 趋向无穷大时,F-分布趋近于 正态分布

均值与方差

  • 均值E[F]=d2d22E[F] = \dfrac{d_2}{d_2-2},其中 d2>2d_2 > 2。仅与分母自由度有关,且总是略大于 1。当 d22d_2 \le 2 时均值不存在。
  • 方差Var(F)=2d22(d1+d22)d1(d22)2(d24)\operatorname{Var}(F) = \dfrac{2d_2^2(d_1+d_2-2)}{d_1(d_2-2)^2(d_2-4)},其中 d2>4d_2 > 4。当 d24d_2 \le 4 时方差不存在。

与其他分布的关系

  1. Tt(d)T \sim t(d),则 T2F(1,d)T^2 \sim F(1, d)。这解释了在单变量回归中对单个系数的 t 检验与整体 F 检验的等价性。
  2. 当分母自由度 d2d_2 \to \infty 时,d1Fχ2(d1)d_1 F \to \chi^2(d_1)

在统计推断中的应用

方差分析 (ANOVA)

这是 F-分布最经典的应用。ANOVA 检验三个或更多总体均值是否相等。检验统计量为组间均方 (MSG) 与组内均方 (MSE) 的比值:

F=MSGMSE=SSB/(k1)SSW/(Nk)F = \frac{MSG}{MSE} = \frac{SSB/(k-1)}{SSW/(N-k)}

其中 kk 为组数,NN 为总样本量。在 原假设(所有均值相等)下,该统计量服从 F(k1,Nk)F(k-1, N-k) 分布。若 F 值远大于 1,说明组间变异显著大于组内变异,提供拒绝原假设的证据。

线性回归模型的整体显著性检验

多元线性回归 中,F 检验判断模型整体是否显著。原假设为所有自变量系数均为零 (β1=β2==βp=0\beta_1 = \beta_2 = \ldots = \beta_p = 0)。F 统计量为:

F=MSRMSE=SSR/pSSE/(np1)F = \frac{MSR}{MSE} = \frac{SSR/p}{SSE/(n-p-1)}

其中 pp 为自变量个数,nn 为样本量。在零假设下服从 F(p,np1)F(p, n-p-1) 分布。大的 F 值表明模型具有整体显著性。

两个总体方差的齐性检验

F 检验可直接比较两个独立正态总体的 方差 是否相等。检验统计量为两个 样本方差 的比值:

F=s12s22F = \frac{s_1^2}{s_2^2}

原假设 (σ12=σ22\sigma_1^2 = \sigma_2^2) 下服从 F(n11,n21)F(n_1-1, n_2-1) 分布。为便于查表,通常将较大样本方差置于分子。

解读与决策

进行 F 检验时,将计算出的 F 统计量与 临界值 比较,或考察 p值

  1. 给定 显著性水平 α\alpha,若 Fcalculated>Fα,d1,d2F_{\text{calculated}} > F_{\alpha, d_1, d_2},则拒绝原假设。
  2. 若 p 值小于 α\alpha (p<αp < \alpha),则拒绝原假设。现代统计软件(R、Python、SPSS 等)自动输出 F 统计量及其 p 值。

F-分布是连接样本方差与总体方差的核心桥梁。其本质思想是:若两个方差估计量(如 ANOVA 中的 MSG 和 MSE)均来源于同一总体方差,则比值应在 1 附近波动;若显著偏离 1,则表明其背后的方差来源或均值存在差异。这一原理使其成为比较方差和均值的强大工具,在经济学、金融学、生物学、工程学等领域有广泛应用。