ARTICLE
学生 t 分布
学生 t 分布 (Student's t-distribution) 学生 t 分布 (Student's t-distribution),简称 t 分布,是 推断统计学 中一类连续 概率分布,由英国统计学家 威廉·戈塞特 (William Sealy Gosset) 于 1908 年以笔名"学生"(Student)发表。该分布专为 小样本 场景设计——当
学生 t 分布 (Student's t-distribution)
学生 t 分布 (Student's t-distribution),简称 t 分布,是 推断统计学 中一类连续 概率分布,由英国统计学家 威廉·戈塞特 (William Sealy Gosset) 于 1908 年以笔名"学生"(Student)发表。该分布专为 小样本 场景设计——当 总体标准差 未知且须以 样本标准差 替代时,t 分布取代 正态分布 成为 假设检验 和 区间估计 的准确参照分布。
定义与构造
设 为标准正态随机变量, 为自由度为 的 卡方分布,且 与 独立,则随机变量
服从自由度为 的 t 分布,记作 。
参数 (自由度)决定了分布的形状。在 单样本 t 检验 中,自由度取 ,其中 为样本量。
概率密度函数
t 分布的概率密度函数为:
其中 为 Gamma函数。该密度关于 对称,呈钟形,但尾部比 标准正态分布 更厚——这反映了小样本下估计量波动更大的特性。
核心性质
- 对称性:t 分布以 0 为中心对称,与标准正态分布类似。
- 尾部厚度:自由度 越小,尾部越厚;当 时,t 分布趋近于标准正态分布。实际中, 时两者已十分接近。
- 数学期望:当 时,;当 时,期望不存在。
- 方差:当 时,;当 时,方差无穷大或不定义。
- 峰度:t 分布的峰度(需 )为 ,高于正态分布的 3,体现其 尖峰厚尾 特征。
在统计学中的应用
t 分布是经典 小样本推断 的基石,主要应用包括:
- 单样本 t 检验:检验样本均值是否等于已知常数的总体均值。检验统计量为: \[ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \sim t_{n-1} \] 其中 为样本均值, 为样本标准差, 为样本量。
- 两样本 t 检验:比较两个独立组均值是否相等。分为等方差(Student's t)和异方差(Welch t检验)两种形式。
- 配对 t 检验:用于同一对象前后测或匹配对象的均值比较,本质是对差值序列的单样本 t 检验。
- 回归系数的显著性检验:在 线性回归 中,回归系数 除以其 标准误 后得到 t 统计量,用于检验系数是否显著不为 0。
- 置信区间:基于 t 分布构造的均值置信区间为: \[ \bar{x} \pm t_{\alpha/2,\,n-1} \cdot \frac{s}{\sqrt{n}} \] 其中 为 t 分布的 上侧分位数。
与正态分布的关系
t 分布与 正态分布 的深层联系通过 高尔顿-戈塞特-费希尔链 展现:当样本量为大样本时,t 分布近似于标准正态分布,因此 z 检验 可替代 t 检验。但在小样本下,使用 t 分布而非正态分布是避免 I 型错误 膨胀的必要措施。此外,t 分布是 贝叶斯推断 中正态分布均值参数的无信息后验分布,体现了其在现代统计中的地位。
历史注记
戈塞特时任爱尔兰都柏林 健力士啤酒厂 (Guinness Brewery) 的酿酒化学师。他需要在极其有限的样本(如仅 4 批麦芽)中推断产品质量。然而公司禁止员工以本名发表研究——以防范商业机密泄露——故以"Student"为笔名。罗纳德·费希尔 (Ronald Fisher) 随后完善了该理论,并以"t 分布"之名将其写入所有统计学教科书。这一发现是 小样本革命 的起点,使统计学从"大样本近似"迈入"精确小样本推断"的时代。