ARTICLE

学生 t 分布

学生 t 分布 (Student's t-distribution) 学生 t 分布 (Student's t-distribution),简称 t 分布,是 推断统计学 中一类连续 概率分布,由英国统计学家 威廉·戈塞特 (William Sealy Gosset) 于 1908 年以笔名"学生"(Student)发表。该分布专为 小样本 场景设计——当

浏览 0 更新 2025-10-29

学生 t 分布 (Student's t-distribution)

学生 t 分布 (Student's t-distribution),简称 t 分布,是 推断统计学 中一类连续 概率分布,由英国统计学家 威廉·戈塞特 (William Sealy Gosset) 于 1908 年以笔名"学生"(Student)发表。该分布专为 小样本 场景设计——当 总体标准差 未知且须以 样本标准差 替代时,t 分布取代 正态分布 成为 假设检验区间估计 的准确参照分布。

定义与构造

ZN(0,1)Z \sim N(0,1) 为标准正态随机变量,Vχk2V \sim \chi^2_k 为自由度为 kk卡方分布,且 ZZVV 独立,则随机变量

T=ZV/kT = \frac{Z}{\sqrt{V/k}}

服从自由度为 kkt 分布,记作 TtkT \sim t_k

参数 kk(自由度)决定了分布的形状。在 单样本 t 检验 中,自由度取 n1n-1,其中 nn 为样本量。

概率密度函数

t 分布的概率密度函数为:

fT(t)=Γ ⁣(k+12)kπΓ ⁣(k2)(1+t2k)k+12,<t<f_T(t) = \frac{\Gamma\!\left(\frac{k+1}{2}\right)}{\sqrt{k\pi}\,\Gamma\!\left(\frac{k}{2}\right)} \left(1 + \frac{t^2}{k}\right)^{-\frac{k+1}{2}}, \quad -\infty < t < \infty

其中 Γ()\Gamma(\cdot)Gamma函数。该密度关于 t=0t=0 对称,呈钟形,但尾部比 标准正态分布 更厚——这反映了小样本下估计量波动更大的特性。

核心性质

  1. 对称性:t 分布以 0 为中心对称,与标准正态分布类似。
  2. 尾部厚度:自由度 kk 越小,尾部越厚;当 kk \to \infty 时,t 分布趋近于标准正态分布。实际中,k>30k > 30 时两者已十分接近。
  3. 数学期望:当 k>1k > 1 时,E[T]=0\mathbb{E}[T] = 0;当 k1k \le 1 时,期望不存在。
  4. 方差:当 k>2k > 2 时,Var(T)=kk2\operatorname{Var}(T) = \frac{k}{k-2};当 k2k \le 2 时,方差无穷大或不定义。
  5. 峰度:t 分布的峰度(需 k>4k > 4)为 6k4+3\frac{6}{k-4} + 3,高于正态分布的 3,体现其 尖峰厚尾 特征。

在统计学中的应用

t 分布是经典 小样本推断 的基石,主要应用包括:

  1. 单样本 t 检验:检验样本均值是否等于已知常数的总体均值。检验统计量为: \[ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \sim t_{n-1} \] 其中 xˉ\bar{x} 为样本均值,ss 为样本标准差,nn 为样本量。
  2. 两样本 t 检验:比较两个独立组均值是否相等。分为等方差(Student's t)和异方差(Welch t检验)两种形式。
  3. 配对 t 检验:用于同一对象前后测或匹配对象的均值比较,本质是对差值序列的单样本 t 检验。
  4. 回归系数的显著性检验:在 线性回归 中,回归系数 β^j\hat{\beta}_j 除以其 标准误 后得到 t 统计量,用于检验系数是否显著不为 0。
  5. 置信区间:基于 t 分布构造的均值置信区间为: \[ \bar{x} \pm t_{\alpha/2,\,n-1} \cdot \frac{s}{\sqrt{n}} \] 其中 tα/2,n1t_{\alpha/2,\,n-1} 为 t 分布的 α/2\alpha/2 上侧分位数。

与正态分布的关系

t 分布与 正态分布 的深层联系通过 高尔顿-戈塞特-费希尔链 展现:当样本量为大样本时,t 分布近似于标准正态分布,因此 z 检验 可替代 t 检验。但在小样本下,使用 t 分布而非正态分布是避免 I 型错误 膨胀的必要措施。此外,t 分布是 贝叶斯推断 中正态分布均值参数的无信息后验分布,体现了其在现代统计中的地位。

历史注记

戈塞特时任爱尔兰都柏林 健力士啤酒厂 (Guinness Brewery) 的酿酒化学师。他需要在极其有限的样本(如仅 4 批麦芽)中推断产品质量。然而公司禁止员工以本名发表研究——以防范商业机密泄露——故以"Student"为笔名。罗纳德·费希尔 (Ronald Fisher) 随后完善了该理论,并以"t 分布"之名将其写入所有统计学教科书。这一发现是 小样本革命 的起点,使统计学从"大样本近似"迈入"精确小样本推断"的时代。