ARTICLE

卡方分布与F分布

卡方分布与F分布 (Chi-squared and F Distributions) 卡方分布与F分布是统计推断中两种极为重要的概率分布。它们与正态分布和t分布共同构成了经典假设检验和置信区间构建的基石。这两种分布都是由正态分布派生而来的抽样分布，分别服务于关于方差的推断和多组均值的比较，在计量经济学、生物统计学、机器学习模型评估与计量经济学诊断检验中均有不

浏览 17 更新 2025-10-25

卡方分布与F分布 (Chi-squared and F Distributions)

卡方分布与F分布是统计推断中两种极为重要的概率分布。它们与正态分布和t分布共同构成了经典假设检验和置信区间构建的基石。这两种分布都是由正态分布派生而来的抽样分布，分别服务于关于方差的推断和多组均值的比较，在计量经济学、生物统计学、机器学习模型评估与计量经济学诊断检验中均有不可替代的地位。

卡方分布：定义与构建

卡方分布由单一参数——自由度 (degrees of freedom, df)，记为 $k$ ——完全确定。其严格定义为：假设有 $k$ 个独立的随机变量 $Z_1, Z_2, \dots, Z_k$ ，每一个均服从标准正态分布（均值为0，方差为1），则这些随机变量的平方和 $Q$ 所服从的分布即为自由度为 $k$ 的卡方分布：

Q = \sum_{i=1}^{k} Z_i^2 \sim \chi^2(k)

这里的 $k$ 代表求和中独立平方变量的个数，直观反映了"有多少个独立的标准化离差平方"被累加。这一构造方式直接决定了卡方分布的核心性质。

卡方分布的核心性质

非负性与形状：由于卡方变量本质上是平方和，其取值恒为非负，概率密度函数定义域为 $[0, +\infty)$ 。分布呈右偏态，当自由度较小时偏态显著；随着 $k$ 增大，根据中心极限定理，分布逐渐趋向对称，最终逼近正态分布。实际应用中，当 $k > 30$ 时常使用正态近似。

期望与方差： $\chi^2(k)$ 的期望 $E(Q) = k$ ，方差 $Var(Q) = 2k$ 。这一性质表明，卡方分布的集中位置和离散程度均与自由度直接成正比——自由度越大，分布越"靠右"且越"分散"。

可加性：若 $X_1 \sim \chi^2(k_1)$ 与 $X_2 \sim \chi^2(k_2)$ 相互独立，则 $X_1 + X_2 \sim \chi^2(k_1 + k_2)$ 。这一性质是许多多变量检验能够分解为独立分量之和的理论基础。

卡方分布的主要应用

单总体方差推断：对于来自正态总体 $N(\mu, \sigma^2)$ 的大小为 $n$ 的随机样本，样本方差 $s^2$ 满足：

\frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)

利用此统计量可构建 $\sigma^2$ 的假设检验与置信区间，在质量控制与金融波动率估计中尤为重要。

拟合优度检验：卡方检验用于判断观测频数与理论期望频数是否吻合。检验统计量为：

\chi^2 = \sum_{i=1}^{c} \frac{(O_i - E_i)^2}{E_i}

其中 $O_i$ 为第 $i$ 类的观测频数， $E_i$ 为期望频数。该统计量近似服从 $\chi^2(c-1-m)$ ， $m$ 为由样本估计的参数个数。典型应用包括检验骰子是否公平、数据是否符合特定分布族。

独立性检验：在列联表分析中，卡方检验判断两个分类变量是否存在关联。例如，检验吸烟习惯与肺癌发病率之间是否独立。检验逻辑与拟合优度相同，均基于观测频数与独立假设下期望频数的偏离程度。

F分布：定义与构建

F分布由两个参数——分子自由度 $d_1$ 与分母自由度 $d_2$ ——共同确定。其定义为：设 $U \sim \chi^2(d_1)$ 与 $V \sim \chi^2(d_2)$ 为两个独立的卡方随机变量，则如下比值服从F分布：

F = \frac{U/d_1}{V/d_2} \sim F(d_1, d_2)

这一定义揭示了F分布与卡方分布的本质联系：F分布是两个被各自自由度标准化的独立卡方变量之比。命名源于罗纳德·费雪 (Sir Ronald Fisher)，以表彰他在方差分析领域的开创性贡献。

F分布的核心性质

非负性与形状：F分布定义域为 $(0, +\infty)$ ，同样呈右偏态。具体形状由 $d_1$ 和 $d_2$ 共同决定：当 $d_1$ 较小而 $d_2$ 较大时偏态尤为显著。

倒数性质：若 $X \sim F(d_1, d_2)$ ，则 $1/X \sim F(d_2, d_1)$ 。这一性质极具实用价值——由于传统F分布表通常只给出右侧临界值，左侧临界值可通过查 $F(d_2, d_1)$ 的右侧值再取倒数获得。

与t分布的关系：若 $T \sim t(k)$ ，则 $T^2 \sim F(1, k)$ 。这意味着双尾t检验与对应的F检验在数学上等价，均方根性地统一了单变量与多变量检验框架。

F分布的主要应用

方差分析 (ANOVA)：F分布最著名的应用。ANOVA通过比较组间变异与组内变异判断三组及以上均值是否相等：

F = \frac{\text{组间均方 (MSB)}}{\text{组内均方 (MSW)}}

若该比率显著大于1，表明组间差异不能仅由随机抽样误差解释，从而拒绝所有组均值相等的零假设。ANOVA在实验设计、A/B测试和农业田间试验中被广泛使用。

比较两总体方差：对来自两个独立正态总体的样本，检验 $\sigma_1^2 = \sigma_2^2$ 的统计量为 $F = s_1^2 / s_2^2 \sim F(n_1-1, n_2-1)$ 。此检验是决定是否使用合并方差t检验（pooled t-test）的前提条件，也是金融中检验两个投资组合波动率差异的标准工具。

回归分析整体显著性检验：在线性回归中，F检验评估模型整体的解释效力——检验除截距外所有回归系数同时为零的零假设。这是回归输出表中F统计量及其p值的理论来源，用于回答"模型是否比仅用均值预测更好"这一根本性问题。

分布族的内在统一

四种核心抽样分布根植于标准正态分布 $Z$ ，形成层次递进的统一体系：

$Z^2 \sim \chi^2(1)$ ——单个标准化正态离差平方
$\sum_{i=1}^k Z_i^2 \sim \chi^2(k)$ ——多个独立正态离差平方和
$\frac{Z}{\sqrt{\chi^2(k)/k}} \sim t(k)$ ——标准化正态与卡方根之比
$\frac{\chi^2(d_1)/d_1}{\chi^2(d_2)/d_2} \sim F(d_1, d_2)$ ——两个标准化卡方之比

这一递进结构意味着：掌握卡方分布与F分布的定义、性质及其在假设检验中的角色，是贯通整个经典统计推断方法论的必经之路。从单一正态样本的方差推断到复杂实验设计的多因素方差分析，再到计量经济学中模型设定检验与金融风险度量，这两种分布构成了频率学派统计大厦的关键支柱，并在计量经济学的模型诊断检验与工具变量分析中发挥核心作用。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。