F分布的定义 (F-Distribution)
F分布 (F-Distribution)是统计学 中一种重要的连续型概率分布 ,它以英国统计学家Ronald Fisher 的名字命名。F分布主要应用于方差分析 (ANOVA)、回归分析 的显著性检验以及两个总体方差是否相等的检验(F检验)。该分布由 George W. Snedecor 为了纪念 Fisher 而正式提出,因此有时也称为Fisher-Snedecor分布 。
定义
F分布定义为两个独立的卡方分布 (Chi-squared Distribution)随机变量除以其各自自由度后的比值。具体而言,设 U ∼ χ 2 ( d 1 ) U \sim \chi^2(d_1) U ∼ χ 2 ( d 1 ) 和 V ∼ χ 2 ( d 2 ) V \sim \chi^2(d_2) V ∼ χ 2 ( d 2 ) 为两个相互独立的卡方随机变量,自由度分别为 d 1 d_1 d 1 和 d 2 d_2 d 2 ,则随机变量
F = U / d 1 V / d 2 F = \frac{U / d_1}{V / d_2} F = V / d 2 U / d 1
服从自由度为 ( d 1 , d 2 ) (d_1, d_2) ( d 1 , d 2 ) 的F分布,记作 F ∼ F ( d 1 , d 2 ) F \sim F(d_1, d_2) F ∼ F ( d 1 , d 2 ) 。其中 d 1 d_1 d 1 称为分子自由度 (Numerator Degrees of Freedom),d 2 d_2 d 2 称为分母自由度 (Denominator Degrees of Freedom)。分子自由度和分母自由度的顺序至关重要,F ( d 1 , d 2 ) F(d_1, d_2) F ( d 1 , d 2 ) 与 F ( d 2 , d 1 ) F(d_2, d_1) F ( d 2 , d 1 ) 是不同的分布。
概率密度函数
F分布的概率密度函数(PDF)由以下公式给出:
f ( x ; d 1 , d 2 ) = ( d 1 x ) d 1 d 2 d 2 ( d 1 x + d 2 ) d 1 + d 2 x ⋅ B ( d 1 2 , d 2 2 ) , x ≥ 0 f(x; d_1, d_2) = \frac{\sqrt{\frac{(d_1 x)^{d_1} d_2^{d_2}}{(d_1 x + d_2)^{d_1 + d_2}}}}{x \cdot B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)}, \quad x \geq 0 f ( x ; d 1 , d 2 ) = x ⋅ B ( 2 d 1 , 2 d 2 ) ( d 1 x + d 2 ) d 1 + d 2 ( d 1 x ) d 1 d 2 d 2 , x ≥ 0
其中 B ( ⋅ , ⋅ ) B(\cdot, \cdot) B ( ⋅ , ⋅ ) 是Beta函数 (Beta Function),定义为 B ( α , β ) = ∫ 0 1 t α − 1 ( 1 − t ) β − 1 d t B(\alpha, \beta) = \int_0^1 t^{\alpha-1}(1-t)^{\beta-1} dt B ( α , β ) = ∫ 0 1 t α − 1 ( 1 − t ) β − 1 d t 。也可以将PDF写成更紧凑的形式:
f ( x ; d 1 , d 2 ) = 1 B ( d 1 2 , d 2 2 ) ( d 1 d 2 ) d 1 / 2 x d 1 2 − 1 ( 1 + d 1 d 2 x ) − d 1 + d 2 2 , x ≥ 0 f(x; d_1, d_2) = \frac{1}{B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)} \left(\frac{d_1}{d_2}\right)^{d_1/2} x^{\frac{d_1}{2} - 1} \left(1 + \frac{d_1}{d_2} x\right)^{-\frac{d_1 + d_2}{2}}, \quad x \geq 0 f ( x ; d 1 , d 2 ) = B ( 2 d 1 , 2 d 2 ) 1 ( d 2 d 1 ) d 1 /2 x 2 d 1 − 1 ( 1 + d 2 d 1 x ) − 2 d 1 + d 2 , x ≥ 0
累积分布函数
F分布的累积分布函数(CDF)可用正则化不完全Beta函数表示:
F ( x ; d 1 , d 2 ) = I d 1 x d 1 x + d 2 ( d 1 2 , d 2 2 ) F(x; d_1, d_2) = I_{\frac{d_1 x}{d_1 x + d_2}}\left(\frac{d_1}{2}, \frac{d_2}{2}\right) F ( x ; d 1 , d 2 ) = I d 1 x + d 2 d 1 x ( 2 d 1 , 2 d 2 )
其中 I z ( α , β ) = B ( z ; α , β ) B ( α , β ) I_z(\alpha, \beta) = \frac{B(z; \alpha, \beta)}{B(\alpha, \beta)} I z ( α , β ) = B ( α , β ) B ( z ; α , β ) 是正则化不完全Beta函数,B ( z ; α , β ) = ∫ 0 z t α − 1 ( 1 − t ) β − 1 d t B(z; \alpha, \beta) = \int_0^z t^{\alpha-1}(1-t)^{\beta-1} dt B ( z ; α , β ) = ∫ 0 z t α − 1 ( 1 − t ) β − 1 d t 是不完全Beta函数。由于F分布的CDF没有封闭形式的初等表达式,实际应用中通常通过数值方法或查找F分布表来获取分位数和p值。大多数统计软件和编程语言(如R、Python的SciPy库)都内置了F分布的CDF计算函数。
形状与性质
F分布具有以下重要性质:
非负性 :F分布的定义域为 [ 0 , ∞ ) [0, \infty) [ 0 , ∞ ) ,即F统计量的取值总是非负的。偏态性 :F分布是右偏的(正偏态),其偏斜程度随分子自由度的增大而减小。渐近性质 :当分母自由度 d 2 → ∞ d_2 \to \infty d 2 → ∞ 时,d 1 F d_1 F d 1 F 依分布收敛于 χ 2 ( d 1 ) \chi^2(d_1) χ 2 ( d 1 ) 。当 d 1 d_1 d 1 和 d 2 d_2 d 2 都趋于无穷时,F分布趋近于正态分布。倒数性质 :如果 X ∼ F ( d 1 , d 2 ) X \sim F(d_1, d_2) X ∼ F ( d 1 , d 2 ) ,则 1 X ∼ F ( d 2 , d 1 ) \frac{1}{X} \sim F(d_2, d_1) X 1 ∼ F ( d 2 , d 1 ) 。这一性质在构造置信区间时非常有用。
矩
F分布的矩存在条件与自由度有关。设 X ∼ F ( d 1 , d 2 ) X \sim F(d_1, d_2) X ∼ F ( d 1 , d 2 ) ,则:
期望 (Mean):
E [ X ] = d 2 d 2 − 2 , d 2 > 2 E[X] = \frac{d_2}{d_2 - 2}, \quad d_2 > 2 E [ X ] = d 2 − 2 d 2 , d 2 > 2
当 d 2 ≤ 2 d_2 \leq 2 d 2 ≤ 2 时,期望不存在(发散至无穷大)。当分母自由度较大时,F分布的期望接近1。
方差 (Variance):
Var ( X ) = 2 d 2 2 ( d 1 + d 2 − 2 ) d 1 ( d 2 − 2 ) 2 ( d 2 − 4 ) , d 2 > 4 \text{Var}(X) = \frac{2 d_2^2 (d_1 + d_2 - 2)}{d_1 (d_2 - 2)^2 (d_2 - 4)}, \quad d_2 > 4 Var ( X ) = d 1 ( d 2 − 2 ) 2 ( d 2 − 4 ) 2 d 2 2 ( d 1 + d 2 − 2 ) , d 2 > 4
当 d 2 ≤ 4 d_2 \leq 4 d 2 ≤ 4 时,方差不存在。
偏度 (Skewness)和峰度 (Kurtosis)的表达式较为复杂,但它们均随自由度的增大而减小。当 d 2 d_2 d 2 很大时,F分布近似对称。
众数 (Mode):当 d 1 > 2 d_1 > 2 d 1 > 2 时,F分布的众数为
Mode ( X ) = d 2 d 1 ⋅ d 1 − 2 d 2 + 2 \text{Mode}(X) = \frac{d_2}{d_1} \cdot \frac{d_1 - 2}{d_2 + 2} Mode ( X ) = d 1 d 2 ⋅ d 2 + 2 d 1 − 2
当 d 1 ≤ 2 d_1 \leq 2 d 1 ≤ 2 时,众数位于 x = 0 x=0 x = 0 处,此时分布呈单调递减的L形。
F分布与其他分布的关系
与卡方分布的关系
F分布直接由两个独立的卡方分布 变量构造而成。这种构造方式使得F分布可以视为卡方分布的一种设 T ∼ t ( k ) T \sim t(k) T ∼ t ( k ) 为自由度为 k k k 的t分布随机变量,则
T 2 ∼ F ( 1 , k ) T^2 \sim F(1, k) T 2 ∼ F ( 1 , k )
即t分布随机变量的平方服从分子自由度为1、分母自由度为 k k k 的F分布。反之,若 X ∼ F ( 1 , k ) X \sim F(1, k) X ∼ F ( 1 , k ) ,则 X ∼ t ( k ) \sqrt{X} \sim t(k) X ∼ t ( k ) (符号由原假设方向决定)。这一关系揭示了F检验与t检验之间的联系:对于单个系数的显著性检验,可以等价地使用t检验或F检验。
应用
1. 方差分析(ANOVA)
F分布在方差分析中扮演核心角色。在单因素方差分析中,F统计量被构造为组间均方(Between-Group Mean Square)与组内均方(Within-Group Mean Square)的比值:
F = M S B M S W ∼ F ( k − 1 , n − k ) F = \frac{MS_B}{MS_W} \sim F(k-1, n-k) F = M S W M S B ∼ F ( k − 1 , n − k )
其中 k k k 是组数,n n n 是总样本量。如果组间差异显著大于组内差异,F值将偏大,从而拒绝各组均值相等的零假设。
2. 回归模型的整体显著性检验
在多元线性回归 中,F统计量用于检验整个回归模型是否显著,即所有自变量系数是否同时为零。F统计量的形式为:
F = ( S S R reg / k ) ( S S E / ( n − k − 1 ) ) ∼ F ( k , n − k − 1 ) F = \frac{(SSR_{\text{reg}} / k)}{(SSE / (n - k - 1))} \sim F(k, n - k - 1) F = ( SSE / ( n − k − 1 )) ( SS R reg / k ) ∼ F ( k , n − k − 1 )
其中 S S R reg SSR_{\text{reg}} SS R reg 是回归平方和,S S E SSE SSE 是残差平方和,k k k 是自变量个数。如果F值大于临界值,则拒绝"所有回归系数均为零"的零假设。
3. 方差齐性检验
F分布也可用于检验两个总体的方差是否相等(即方差齐性)。F统计量定义为两个样本方差的比值:
F = s 1 2 s 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F = \frac{s_1^2}{s_2^2} \sim F(n_1 - 1, n_2 - 1) F = s 2 2 s 1 2 ∼ F ( n 1 − 1 , n 2 − 1 )
其中 s 1 2 s_1^2 s 1 2 和 s 2 2 s_2^2 s 2 2 是两个独立样本的方差,n 1 n_1 n 1 和 n 2 n_2 n 2 是样本量。需要注意的是,该检验对正态性假设较为敏感。由于F分布对数据偏离正态性的反应较为敏感,实际应用中常结合其他检验方法(如Levene检验)共同判断方差齐性。
4. 部分F检验
在回归分析中,部分F检验(Partial F-test)用于比较两个嵌套模型(一个包含所有自变量,另一个限制部分系数为零)的拟合优度是否显著不同。它在模型选择中具有重要应用。
历史
F分布的发现和命名与两位统计学家密切相关。Ronald Fisher 在20世纪20年代发展方差分析方法时,首次推导出了F分布的核心理论。他最初使用的统计量称为"方差比"(Variance Ratio),并用 z z z 表示 z = 1 2 ln F z = \frac{1}{2}\ln F z = 2 1 ln F 。后来,美国统计学家 George W. Snedecor 为了方便使用,直接使用 F F F 表示该统计量,并以 Fisher 的名字首字母命名,同时编制了F分布的上侧分位数表。Snedecor在其1934年出版的《Statistical Methods》一书中首次系统性地介绍了F分布及其应用,极大地推动了这一统计工具在农业、生物学和经济学等领域的普及。因此,F分布的全称为Fisher-Snedecor分布 。
F分布的数学推导
F分布的推导基于卡方分布的加法性和独立性。假设 X 1 , … , X d 1 X_1, \dots, X_{d_1} X 1 , … , X d 1 和 Y 1 , … , Y d 2 Y_1, \dots, Y_{d_2} Y 1 , … , Y d 2 分别是来自标准正态分布 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 的独立样本,则 U = ∑ i = 1 d 1 X i 2 ∼ χ 2 ( d 1 ) U = \sum_{i=1}^{d_1} X_i^2 \sim \chi^2(d_1) U = ∑ i = 1 d 1 X i 2 ∼ χ 2 ( d 1 ) ,V = ∑ j = 1 d 2 Y j 2 ∼ χ 2 ( d 2 ) V = \sum_{j=1}^{d_2} Y_j^2 \sim \chi^2(d_2) V = ∑ j = 1 d 2 Y j 2 ∼ χ 2 ( d 2 ) 。于是构造出的F统计量 F = U / d 1 V / d 2 F = \frac{U/d_1}{V/d_2} F = V / d 2 U / d 1 服从 F ( d 1 , d 2 ) F(d_1, d_2) F ( d 1 , d 2 ) 分布。
在方差分析的语境中,组间平方和的期望值在零假设下等于组内平方和的期望值乘以自由度的倒数,这使得它们的比值恰好服从F分布,从而为假设检验提供了坚实的理论基础。
注意事项
正态性假设 :F检验作为参数检验,要求原始数据来自正态分布总体。当正态性假设被严重违反时,F检验的结果可能不可靠,此时应考虑非参数方法,如Kruskal-Wallis检验 (Kruskal-Wallis Test)。独立性假设 :F检验要求样本观测是相互独立的。方差齐性假设 :在方差分析中,F检验还假设各组的总体方差相等。若方差不齐,应使用Welch's ANOVA 等校正方法。单尾与双尾 :F检验本质上是单尾检验(右尾),因为F统计量总是正值。当检验两个方差是否相等时,也可构造双尾检验,但通常将较大的方差放在分子位置,以保证F值大于1。