F-分布 (F-distribution)
F-分布 (F-distribution),全称为 费雪-斯内德克分布 (Fisher-Snedecor distribution),是 概率论 和 统计学 中一种至关重要的 连续概率分布。它以统计学家罗纳德·艾尔默·费雪 (Ronald Fisher) 和乔治·斯内德克 (George Snedecor) 的名字命名。F-分布的核心应用在于 F检验 (F-test),广泛用于比较多个总体的均值(如在 方差分析 中)和评估 线性回归模型 的显著性。F-分布由两个参数定义:分子 自由度 d1 和分母自由度 d2。
定义与构造
F-分布的理论基础源于 卡方分布 (Chi-squared distribution)。假设有两个独立的随机变量 U 和 V:
- U 服从自由度为 d1 的卡方分布,记作 U∼χ2(d1)。
- V 服从自由度为 d2 的卡方分布,记作 V∼χ2(d2)。
将这两个随机变量分别除以其各自的自由度,然后求其比值,所得到的新的随机变量 F 就服从分子自由度为 d1、分母自由度为 d2 的 F-分布:
F=V/d2U/d1∼F(d1,d2)
从这个构造中可直接得出两个重要结论:F-分布取值非负 (F≥0),且自由度顺序至关重要——F(d1,d2) 和 F(d2,d1) 是两种不同的分布。一个重要性质是:若 X∼F(d1,d2),则 1/X∼F(d2,d1)。
主要性质
概率密度函数
F-分布的概率密度函数形式较为复杂,但揭示了其形状完全由 d1 和 d2 决定:
f(x;d1,d2)=xB(2d1,2d2)(d1x+d2)d1+d2(d1x)d1d2d2,x≥0
其中 B 是 Beta函数。实际应用中通常通过统计软件或 F-分布表获得概率或 临界值,不直接使用此公式。
分布形状
F-分布是 右偏态 (positively skewed) 的,其峰值接近 1。随着 d1 和 d2 的增大,偏度减小,分布逐渐对称。当 d1 和 d2 趋向无穷大时,F-分布趋近于 正态分布。
均值与方差
- 均值:E[F]=d2−2d2,其中 d2>2。仅与分母自由度有关,且总是略大于 1。当 d2≤2 时均值不存在。
- 方差:Var(F)=d1(d2−2)2(d2−4)2d22(d1+d2−2),其中 d2>4。当 d2≤4 时方差不存在。
与其他分布的关系
- 若 T∼t(d),则 T2∼F(1,d)。这解释了在单变量回归中对单个系数的 t 检验与整体 F 检验的等价性。
- 当分母自由度 d2→∞ 时,d1F→χ2(d1)。
在统计推断中的应用
方差分析 (ANOVA)
这是 F-分布最经典的应用。ANOVA 检验三个或更多总体均值是否相等。检验统计量为组间均方 (MSG) 与组内均方 (MSE) 的比值:
F=MSEMSG=SSW/(N−k)SSB/(k−1)
其中 k 为组数,N 为总样本量。在 原假设(所有均值相等)下,该统计量服从 F(k−1,N−k) 分布。若 F 值远大于 1,说明组间变异显著大于组内变异,提供拒绝原假设的证据。
线性回归模型的整体显著性检验
在 多元线性回归 中,F 检验判断模型整体是否显著。原假设为所有自变量系数均为零 (β1=β2=…=βp=0)。F 统计量为:
F=MSEMSR=SSE/(n−p−1)SSR/p
其中 p 为自变量个数,n 为样本量。在零假设下服从 F(p,n−p−1) 分布。大的 F 值表明模型具有整体显著性。
两个总体方差的齐性检验
F 检验可直接比较两个独立正态总体的 方差 是否相等。检验统计量为两个 样本方差 的比值:
F=s22s12
在 原假设 (σ12=σ22) 下服从 F(n1−1,n2−1) 分布。为便于查表,通常将较大样本方差置于分子。
解读与决策
进行 F 检验时,将计算出的 F 统计量与 临界值 比较,或考察 p值:
- 给定 显著性水平 α,若 Fcalculated>Fα,d1,d2,则拒绝原假设。
- 若 p 值小于 α (p<α),则拒绝原假设。现代统计软件(R、Python、SPSS 等)自动输出 F 统计量及其 p 值。
F-分布是连接样本方差与总体方差的核心桥梁。其本质思想是:若两个方差估计量(如 ANOVA 中的 MSG 和 MSE)均来源于同一总体方差,则比值应在 1 附近波动;若显著偏离 1,则表明其背后的方差来源或均值存在差异。这一原理使其成为比较方差和均值的强大工具,在经济学、金融学、生物学、工程学等领域有广泛应用。