ARTICLE
t-test
t检验 (t-test) t检验是推断统计学中最常用的方法之一,用于检验一个或两个总体的均值是否与某个特定值存在显著差异。该方法由 William Sealy Gosset 于 1908 年以笔名 "Student" 发表,故亦称 Student's t检验。Gosset 在 Guinness 啤酒厂工作期间,面对小样本质量控制的实际需求,发现当总体方差未知
t检验 (t-test)
t检验是推断统计学中最常用的方法之一,用于检验一个或两个总体的均值是否与某个特定值存在显著差异。该方法由 William Sealy Gosset 于 1908 年以笔名 "Student" 发表,故亦称 Student's t检验。Gosset 在 Guinness 啤酒厂工作期间,面对小样本质量控制的实际需求,发现当总体方差未知时,用样本标准差替代总体标准差后的统计量不再服从正态分布,而是服从一种新的分布——t分布。这一发现奠定了小样本统计推断的理论基础。
t检验的核心逻辑与假设检验的一般框架一致:设定零假设 (通常为"均值等于某值"或"两组均值无差异"),计算检验统计量,根据其抽样分布判断数据的极端程度,最终决定是否拒绝 。t检验与 z 检验的根本区别在于:当总体方差 未知且用样本方差 估计时,检验统计量不再服从标准正态分布,而是服从自由度为 的 t 分布——其尾部比正态分布更厚,反映了方差估计带来的额外不确定性。当样本量足够大时,t 分布收敛于正态分布,t 检验与 z 检验等价。
t分布
t分布是 t 检验的数学基础。若 且 相互独立,则随机变量
服从自由度为 的 t 分布,记为 。
t 分布关于零对称,形状由自由度 唯一决定: 较小时尾部较厚,适合小样本推断; 时趋近于 。一般而言,当 时 t 分布与正态分布已十分接近。在 t 检验中,自由度通常为 (单样本)或 (双样本等方差情形),反映了用于估计方差的独立信息量。
单样本t检验
单样本 t 检验用于检验单个总体的均值是否等于某个指定的常数 :
检验统计量为:
其中 为样本均值, 为样本标准差, 为样本容量。在 下,该统计量服从 分布。
假设条件:(1) 数据来自正态总体或样本量足够大(由中心极限定理保证);(2) 观测值相互独立。若正态性严重违背(如重尾分布或离群值),小样本下的 t 检验不可靠,可考虑Wilcoxon符号秩检验等非参数替代。
实例:某工厂声称其生产的零件平均长度为 10 mm,质检员随机抽取 16 个零件,测得 mm, mm。,查 表,双尾 p 值约 0.009,小于 0.01,拒绝零假设——有充分证据表明零件平均长度偏离 10 mm。
独立双样本t检验
独立双样本 t 检验比较两个独立总体的均值是否相等。根据两总体方差是否相等,有两种常用形式。
等方差t检验 (Student's t-test)
假设两总体方差相等(),检验统计量为:
其中 为合并方差估计 (pooled variance)。该统计量在 下服从 分布。等方差假设可通过Levene检验或F检验先行验证——若该假设被拒绝,应改用 Welch t 检验。
Welch t检验 (Welch's t-test)
当两总体方差不等时,Welch (1947) 提出不需等方差假设的近似 t 检验:
其自由度由 Satterthwaite 近似给出:
该自由度通常不是整数,且满足 。Welch t 检验在异方差情形下更稳健,是现代统计软件(如 R 的 \texttt{t.test()})的默认双样本 t 检验方法。
配对t检验
当两组数据存在自然配对关系时——如同一受试者在处理前后的测量值、配对设计的实验数据、或双胞胎研究——应使用配对 t 检验而非独立样本 t 检验,因为配对设计可以消除个体间差异,提高检验功效。
计算每对数据的差值 ,问题转化为对差值均值 的单样本 t 检验:
其中 和 为差值的样本均值和标准差。 表示处理无效果。
关键点:只要配对是合理的,配对 t 检验几乎总是比独立样本 t 检验具有更高的统计功效。但若使用了错误的检验(对配对数据使用独立样本 t 检验),会因忽略个体间变异而导致标准误被高估、功效降低。
t检验与线性回归
t 检验与线性回归中的系数显著性检验本质上是同一框架的不同表现。在回归模型 中,检验 的t统计量等价于在 的两个水平上比较 均值的双样本 t 检验。更一般地,在多元回归中对 的检验可视为控制了其他变量后的"偏"均值比较。
回归框架下的 t 检验具有额外优势:可直接纳入控制变量、处理异方差(通过稳健标准误),以及检验非线性约束。
注意事项与局限性
- 正态性假设:t 检验假设数据来自正态分布。但在大样本()下,中心极限定理使 t 检验对非正态性较为稳健。小样本且严重偏态时,应考虑Mann-Whitney U检验或Bootstrap方法。
- 效应量:统计显著不等于实际显著。应同时报告效应量,如Cohen's d:。Cohen 的参考标准:(小)、(中)、(大)。
- 多重比较:同时进行多个 t 检验时,总体第 I 类错误率膨胀。例如,三组两两比较共需 3 次 t 检验,若每次 ,整体错误率远超 5\%。应使用Bonferroni校正、Tukey HSD 或 ANOVA 加事后检验等方法来控制族错误率。
- 单尾 vs 双尾:双尾检验更保守且为默认选择。仅在研究假设有明确方向且预先注册时才使用单尾检验,否则有 p-hacking 嫌疑。
- 样本量:样本量过小导致检验功效不足,无法检测真实存在的效应(第 II 类错误)。统计功效分析应在实验设计阶段完成,以确定必要样本量。
小结
t检验是统计推断的入门工具,看似简单,却是计量经济学中OLS回归系数检验的逻辑基础。William Gosset 百年前在啤酒厂地下室做出的发现,至今仍在实验室、临床研究和经济实证中保持核心地位。掌握 t 检验的关键不在于记忆公式,而在于理解每个变体(单样本、独立样本、配对样本)的适用场景,以及正态性、同方差性等前提假设被违背时的应对方案。