ARTICLE

p-值

p-值 (p-value) p-值 (p-value)，全称为概率值 (probability value)，是统计学中假设检验 (Hypothesis Testing) 框架下的一个核心概念。它是一个概率，用来衡量观测到的样本数据与零假设 ( H_0 ) 之间的一致性程度。简而言之，p-值是在假定零假设为真的前提下，获得当前观测结果或更极端结果的概率。一

浏览 48 更新 2025-10-26

p-值 (p-value)

p-值 (p-value)，全称为概率值 (probability value)，是统计学中假设检验 (Hypothesis Testing) 框架下的一个核心概念。它是一个概率，用来衡量观测到的样本数据与零假设 ( $H_0$ ) 之间的一致性程度。简而言之，p-值是在假定零假设为真的前提下，获得当前观测结果或更极端结果的概率。

一个小的 p-值意味着，在零假设成立的理论模型中，我们观测到的数据是一个非常罕见的事件。这为我们提供了反对零假设的证据，并可能导致我们拒绝它。

形式化定义与解读

在假设检验中，p-值的正式定义如下：

定义：在一个统计模型中，假设零假设 ( $H_0$ ) 为真，p-值是获得一个与实际观测到的结果至少一样极端的检验统计量 (Test Statistic) 的概率。

这个定义包含三个关键部分，理解这三点对于掌握 p-值的精髓至关重要：

以零假设为前提：p-值的整个计算过程都基于一个"反证法"式的逻辑起点——我们首先假设零假设是正确的。零假设通常代表"没有效应"、"没有差异"或"没有关联"的状态。例如，在比较两种药物疗效时，零假设通常是"两种药物的平均疗效没有差异"。
检验统计量：我们不能直接计算数据的概率，而是通过一个函数将样本数据汇总成一个单一的数值，即检验统计量（如 t-统计量、z-分数、卡方统计量等）。这个统计量在零假设下具有已知的概率分布，我们称之为抽样分布 (Sampling Distribution)。
"至少一样极端"的结果：这是最容易被误解的部分。"极端"指的是远离零假设所预期的结果。p-值计算的不是恰好观测到当前结果的概率，而是观测到当前结果以及所有"比它更极端"的结果的概率总和。这个"更极端"的方向取决于备择假设 ( $H_a$ 或 $H_1$ ) 的形式，分为单尾检验和双尾检验。

法庭审判类比

为了帮助理解，我们可以将假设检验比作一场法庭审判：

零假设 ( $H_0$ )：被告是无辜的 ("innocent until proven guilty")。
备择假设 ( $H_a$ )：被告是有罪的。
数据/证据：法庭上呈现的各种证据。
p-值：如果被告真的是无辜的，那么我们能看到当前这些（或更有力的）指控证据的概率有多大。

如果 p-值非常小（例如，p < 0.01），这说明："如果此人清白，我们几乎不可能看到这样对他不利的证据。"这就为陪审团（研究者）提供了强有力的理由来"拒绝无罪假设"，即判定其有罪（拒绝 $H_0$ ）。反之，一个大的 p-值意味着，即使被告是无辜的，出现这些证据也是很平常的事，因此我们没有足够理由来定罪（无法拒绝 $H_0$ ）。

p-值在假设检验中的应用流程

p-值是连接数据和决策的桥梁。标准的假设检验流程如下：

陈述假设：明确定义零假设 ( $H_0$ ) 和备择假设 ( $H_a$ )。
设定显著性水平 ( $\alpha$ )：在收集数据之前，研究者需要预设一个决策阈值，称为显著性水平 (Significance Level)，通常记为 $\alpha$ 。最常用的 $\alpha$ 值为 0.05 (或 5\%)。 $\alpha$ 代表了研究者愿意承担的第一类错误（即错误地拒绝一个为真的零假设）的最大概率。
收集数据与计算：收集样本数据，并计算出相应的检验统计量。
计算 p-值：根据检验统计量的值及其在 $H_0$ 下的抽样分布，计算 p-值。
做出统计决策： \begin{itemize}
如果 $p \le \alpha$ ，我们拒绝零假设 ( $H_0$ )。我们称该结果为统计显著 (Statistically Significant)。
如果 $p > \alpha$ ，我们未能拒绝零假设 ( $H_0$ )。注意，这不等于"接受"或"证明"零假设为真，而仅仅表示我们没有足够的统计证据来否定它。 \end{itemize}

p-值的计算

p-值的计算依赖于检验统计量的分布以及备择假设的方向。

双尾检验 (Two-tailed test)：当备择假设是"不等于"（例如 $H_a: \mu \ne \mu_0$ ）时使用。p-值是分布中两个尾部（大于观测统计量的绝对值和小于其负值）的概率之和。 \[ p = P(|T| \ge |t_{\text{obs}}| \mid H_0) \] 其中 $T$ 是检验统计量的随机变量， $t_{\text{obs}}$ 是我们从样本中计算出的具体值。
右尾检验 (Right-tailed test)：当备择假设是"大于"（例如 $H_a: \mu > \mu_0$ ）时使用。p-值是分布中大于或等于观测统计量的右尾部分的面积。 \[ p = P(T \ge t_{\text{obs}} \mid H_0) \]
左尾检验 (Left-tailed test)：当备择假设是"小于"（例如 $H_a: \mu < \mu_0$ ）时使用。p-值是分布中小于或等于观测统计量的左尾部分的面积。 \[ p = P(T \le t_{\text{obs}} \mid H_0) \]

一个简单的计算示例

假设我们想检验一个硬币是否公平 ( $H_0$ : 抛出正面的概率 $P=0.5$ )。我们进行了双尾检验（ $H_a: P \ne 0.5$ ）。我们抛了 10 次，观察到 8 次正面。

零假设：硬币是公平的 ( $P=0.5$ )。
结果：10 次中 8 次正面。
"至少一样极端"：在双尾检验中，比"8 次正面"更极端的结果包括 8 次、9 次、10 次正面，以及对称的 2 次、1 次、0 次正面。
计算 p-值：我们需要计算在 $P=0.5$ 的条件下，抛 10 次硬币出现 0, 1, 2, 8, 9, 10 次正面的总概率。这是一个二项分布问题。 \[ P(X=k) = \binom{10}{k} (0.5)^k (0.5)^{10-k} \] p-值 $= [P(X=0) + P(X=1) + P(X=2)] + [P(X=8) + P(X=9) + P(X=10)]$ p-值 $\approx [0.001 + 0.010 + 0.044] + [0.044 + 0.010 + 0.001] = 0.109$
决策：如果我们设定的 $\alpha=0.05$ ，那么因为 $p=0.109 > 0.05$ ，我们未能拒绝硬币是公平的这一零假设。

常见的误解与正确用法

p-值是统计学中最常被误用和误解的概念之一。

误解一：p-值是零假设为真的概率。 正确解读：这是根本性的错误。p-值是在假设零假设为真的前提下计算出来的。它描述的是数据的稀有性，而不是假设本身的概率。评估假设概率需要使用贝叶斯统计 (Bayesian Statistics) 的方法。

误解二：p-值是观测结果由随机偶然性造成的概率。 正确解读：这个说法很接近但不精确。正确的说法是：p-值是在零假设（即模型中只有随机偶然性）为真的前提下，观测到当前或更极端结果的概率。

误解三：统计显著性（小 p-值）意味着效应的规模大或具有实际重要性。 正确解读：统计显著性不等于实际显著性。一个极小的 p-值可能对应一个非常微弱的效应，尤其是在样本量 (Sample Size) 极大的情况下。因此，报告 p-值时必须同时报告效应量 (Effect Size) 和置信区间 (Confidence Interval) 才能全面评估结果。

误解四：死守 $\alpha=0.05$ 的"悬崖效应"。 正确解读： $\alpha=0.05$ 只是一个历史惯例，并非神圣不可侵犯的法则。p-值为 0.049 的结果和 p-值为 0.051 的结果在证据强度上几乎没有差别。研究者应将 p-值视为一个连续的证据度量，而不是一个非黑即白的决策工具。

鉴于这些普遍的误解，美国统计协会 (ASA) 在 2016 年发布了关于 p-值的声明，强调科学结论不应仅建立在 p-值是否通过某个特定阈值上，并鼓励研究者提供更全面的统计报告，同时报告效应量、置信区间以及多种分析方法的综合结果。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。