ARTICLE

卡方分布与F分布

卡方分布与F分布 (Chi-squared and F Distributions) 卡方分布与F分布是统计推断中两种极为重要的概率分布。它们与正态分布和t分布共同构成了经典假设检验和置信区间构建的基石。这两种分布都是由正态分布派生而来的抽样分布,分别服务于关于方差的推断和多组均值的比较,在计量经济学、生物统计学、机器学习模型评估与计量经济学诊断检验中均有不

浏览 17 更新 2025-10-25

卡方分布与F分布 (Chi-squared and F Distributions)

卡方分布F分布统计推断中两种极为重要的概率分布。它们与正态分布t分布共同构成了经典假设检验置信区间构建的基石。这两种分布都是由正态分布派生而来的抽样分布,分别服务于关于方差的推断和多组均值的比较,在计量经济学、生物统计学、机器学习模型评估与计量经济学诊断检验中均有不可替代的地位。

卡方分布:定义与构建

卡方分布由单一参数——自由度 (degrees of freedom, df),记为 k k ——完全确定。其严格定义为:假设有 k k 个独立的随机变量 Z1,Z2,,Zk Z_1, Z_2, \dots, Z_k ,每一个均服从标准正态分布(均值为0,方差为1),则这些随机变量的平方和 Q Q 所服从的分布即为自由度为 k k 的卡方分布:

Q=i=1kZi2χ2(k)Q = \sum_{i=1}^{k} Z_i^2 \sim \chi^2(k)

这里的 k k 代表求和中独立平方变量的个数,直观反映了"有多少个独立的标准化离差平方"被累加。这一构造方式直接决定了卡方分布的核心性质。

卡方分布的核心性质

非负性与形状:由于卡方变量本质上是平方和,其取值恒为非负,概率密度函数定义域为 [0,+) [0, +\infty) 。分布呈右偏态,当自由度较小时偏态显著;随着 k k 增大,根据中心极限定理,分布逐渐趋向对称,最终逼近正态分布。实际应用中,当 k>30 k > 30 时常使用正态近似。

期望与方差χ2(k) \chi^2(k) 的期望 E(Q)=k E(Q) = k ,方差 Var(Q)=2k Var(Q) = 2k 。这一性质表明,卡方分布的集中位置和离散程度均与自由度直接成正比——自由度越大,分布越"靠右"且越"分散"。

可加性:若 X1χ2(k1) X_1 \sim \chi^2(k_1) X2χ2(k2) X_2 \sim \chi^2(k_2) 相互独立,则 X1+X2χ2(k1+k2) X_1 + X_2 \sim \chi^2(k_1 + k_2) 。这一性质是许多多变量检验能够分解为独立分量之和的理论基础。

卡方分布的主要应用

单总体方差推断:对于来自正态总体 N(μ,σ2) N(\mu, \sigma^2) 的大小为 n n 的随机样本,样本方差 s2 s^2 满足:

(n1)s2σ2χ2(n1)\frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)

利用此统计量可构建 σ2 \sigma^2 的假设检验与置信区间,在质量控制与金融波动率估计中尤为重要。

拟合优度检验卡方检验用于判断观测频数与理论期望频数是否吻合。检验统计量为:

χ2=i=1c(OiEi)2Ei\chi^2 = \sum_{i=1}^{c} \frac{(O_i - E_i)^2}{E_i}

其中 Oi O_i 为第 i i 类的观测频数,Ei E_i 为期望频数。该统计量近似服从 χ2(c1m) \chi^2(c-1-m) m m 为由样本估计的参数个数。典型应用包括检验骰子是否公平、数据是否符合特定分布族。

独立性检验:在列联表分析中,卡方检验判断两个分类变量是否存在关联。例如,检验吸烟习惯与肺癌发病率之间是否独立。检验逻辑与拟合优度相同,均基于观测频数与独立假设下期望频数的偏离程度。

F分布:定义与构建

F分布由两个参数——分子自由度 d1 d_1 与分母自由度 d2 d_2 ——共同确定。其定义为:设 Uχ2(d1) U \sim \chi^2(d_1) Vχ2(d2) V \sim \chi^2(d_2) 为两个独立的卡方随机变量,则如下比值服从F分布:

F=U/d1V/d2F(d1,d2)F = \frac{U/d_1}{V/d_2} \sim F(d_1, d_2)

这一定义揭示了F分布与卡方分布的本质联系:F分布是两个被各自自由度标准化的独立卡方变量之比。命名源于罗纳德·费雪 (Sir Ronald Fisher),以表彰他在方差分析领域的开创性贡献。

F分布的核心性质

非负性与形状:F分布定义域为 (0,+) (0, +\infty) ,同样呈右偏态。具体形状由 d1 d_1 d2 d_2 共同决定:当 d1 d_1 较小而 d2 d_2 较大时偏态尤为显著。

倒数性质:若 XF(d1,d2) X \sim F(d_1, d_2) ,则 1/XF(d2,d1) 1/X \sim F(d_2, d_1) 。这一性质极具实用价值——由于传统F分布表通常只给出右侧临界值,左侧临界值可通过查 F(d2,d1) F(d_2, d_1) 的右侧值再取倒数获得。

与t分布的关系:若 Tt(k) T \sim t(k) ,则 T2F(1,k) T^2 \sim F(1, k) 。这意味着双尾t检验与对应的F检验在数学上等价,均方根性地统一了单变量与多变量检验框架。

F分布的主要应用

方差分析 (ANOVA):F分布最著名的应用。ANOVA通过比较组间变异与组内变异判断三组及以上均值是否相等:

F=组间均方 (MSB)组内均方 (MSW)F = \frac{\text{组间均方 (MSB)}}{\text{组内均方 (MSW)}}

若该比率显著大于1,表明组间差异不能仅由随机抽样误差解释,从而拒绝所有组均值相等的零假设。ANOVA在实验设计、A/B测试和农业田间试验中被广泛使用。

比较两总体方差:对来自两个独立正态总体的样本,检验 σ12=σ22 \sigma_1^2 = \sigma_2^2 的统计量为 F=s12/s22F(n11,n21) F = s_1^2 / s_2^2 \sim F(n_1-1, n_2-1) 。此检验是决定是否使用合并方差t检验(pooled t-test)的前提条件,也是金融中检验两个投资组合波动率差异的标准工具。

回归分析整体显著性检验:在线性回归中,F检验评估模型整体的解释效力——检验除截距外所有回归系数同时为零的零假设。这是回归输出表中F统计量及其p值的理论来源,用于回答"模型是否比仅用均值预测更好"这一根本性问题。

分布族的内在统一

四种核心抽样分布根植于标准正态分布 Z Z ,形成层次递进的统一体系:

  • Z2χ2(1) Z^2 \sim \chi^2(1) ——单个标准化正态离差平方
  • i=1kZi2χ2(k) \sum_{i=1}^k Z_i^2 \sim \chi^2(k) ——多个独立正态离差平方和
  • Zχ2(k)/kt(k) \frac{Z}{\sqrt{\chi^2(k)/k}} \sim t(k) ——标准化正态与卡方根之比
  • χ2(d1)/d1χ2(d2)/d2F(d1,d2) \frac{\chi^2(d_1)/d_1}{\chi^2(d_2)/d_2} \sim F(d_1, d_2) ——两个标准化卡方之比

这一递进结构意味着:掌握卡方分布与F分布的定义、性质及其在假设检验中的角色,是贯通整个经典统计推断方法论的必经之路。从单一正态样本的方差推断到复杂实验设计的多因素方差分析,再到计量经济学中模型设定检验与金融风险度量,这两种分布构成了频率学派统计大厦的关键支柱,并在计量经济学的模型诊断检验与工具变量分析中发挥核心作用。