知经 KNOWECON · 卓越的经济金融统计数学学习平台

样本比例

# 样本比例 (Sample Proportion)

样本比例 (Sample Proportion),在{{{统计学}}}中通常用 $\hat{p}$ (读作 "p-hat") 表示,是一个关键的{{{统计量}}}。它指的是在一个{{{样本}}}中,具有某一特定属性的个体所占的比例。样本比例是用于估计未知的{{{总体比例}}} (Population Proportion) $p$ 的{{{点估计}}}量。

举例来说,如果我们想知道一个城市所有选民中支持某位候选人的真实比例(总体比例 $p$),我们可能无法调查所有人。于是,我们进行一次{{{随机抽样}}},抽取 1000 名选民({{{样本量}}} $n=1000$),发现其中有 550 人支持该候选人({{{成功次数}}} $x=550$)。那么,这次调查的样本比例 $\hat{p}$ 就是 $550/1000 = 0.55$。

## 计算公式

样本比例的计算非常直观。其计算公式为:

$$ \hat{p} = \frac{x}{n} $$

其中: * $x$代表在样本中拥有该特定属性的个体数量(也称为"成功"的次数)。 * $n$代表总的{{{样本量}}} (sample size)。

这个值 $\hat{p}$ 是一个介于 0 和 1 之间的数值,也可以表示为百分比。它描述了在我们的特定样本中观察到的现象的频率。

## 样本比例的抽样分布 (Sampling Distribution of the Sample Proportion)

在{{{推断统计学}}}中,我们不仅仅关心单次抽样得到的样本比例,更关心的是这个统计量本身的性质。如果我们从同一个{{{总体}}}中反复抽取无数个大小为 $n$ 的样本,每次都会计算出一个样本比例 $\hat{p}$。这些 $\hat{p}$ 值会各不相同,它们所形成的分布就是 样本比例的抽样分布

根据{{{中心极限定理}}} (Central Limit Theorem) 的一个重要推论,在满足特定条件下,这个抽样分布具有以下优良性质:

1. 形状 (Shape):当样本量足够大时,样本比例 $\hat{p}$ 的抽样分布近似于一个{{{正态分布}}} (Normal Distribution)。 * 条件:这个近似成立的经验法则是 "成功-失败条件" (Success/Failure Condition)。即样本中预期的成功次数和失败次数都必须足够大,通常要求 $np \ge 10$ 和 $n(1-p) \ge 10$。由于在实际应用中总体比例 $p$ 是未知的,我们通常用 $\hat{p}$ 来检验这个条件,即 $n\hat{p} \ge 10$ 和 $n(1-\hat{p}) \ge 10$。

2. 中心 (Center):样本比例抽样分布的{{{期望值}}}(均值)等于总体的真实比例 $p$。 $$ \mu_{\hat{p}} = E(\hat{p}) = p $$ 这个性质表明,样本比例 $\hat{p}$ 是总体比例 $p$ 的一个{{{无偏估计量}}} (Unbiased Estimator)。这意味着,虽然单次抽样的 $\hat{p}$ 可能高于或低于真实的 $p$,但从长期来看,所有可能样本的 $\hat{p}$ 的平均值会精确地等于 $p$。

3. 离散度 (Spread):样本比例抽样分布的{{{标准差}}},被称为 比例的标准误 (Standard Error of the Proportion),其计算公式为: $$ \sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} $$ 这个{{{标准误}}}衡量了样本比例 $\hat{p}$ 作为总体比例 $p$ 的估计值的平均误差或波动性。样本量 $n$ 越大,标准误越小,意味着我们的估计越精确。 * 独立性条件:为了使用此公式,样本中的观测值应相互独立。当进行无放回抽样时,如果样本量 $n$ 不超过总体大小 $N$ 的 10%(即 $n \le 0.10N$),我们可以认为观测值是近似独立的。

## 在推断统计中的应用

样本比例及其抽样分布的理论是进行总体比例推断的基础,主要应用于两个方面:{{{置信区间}}}的构造和{{{假设检验}}}的执行。

### 1. 构造置信区间

我们使用样本比例来构造一个区间,以一定的置信水平(如95%)估计总体比例 $p$ 的真实范围。这个区间就是{{{置信区间}}} (Confidence Interval)。

由于真实的 $p$ 未知,我们用 $\hat{p}$ 来估计标准误。因此,用于计算的标准误被称为 估计的标准误 (Estimated Standard Error): $SE_{\hat{p}} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$。

一个总体比例的置信区间的通用公式是:

$$ \text{点估计} \pm \text{误差范围} \quad \Rightarrow \quad \hat{p} \pm z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} $$

其中: * $\hat{p}$ 是样本比例。 * $z^*$ 是与所需置信水平相对应的{{{临界值}}} (Critical Value)。例如,对于95%的置信水平,该值来自于标准正态分布, $z^* \approx 1.96$。 * $\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ 是比例的估计标准误。 * $z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ 称为{{{误差范围}}} (Margin of Error)。

示例:某大学随机调查了 400 名学生,其中 120 人表示他们每天都喝咖啡。请为该大学所有学生中每天喝咖啡的真实比例构造一个95%的置信区间。

* 计算样本比例:$\hat{p} = \frac{120}{400} = 0.30$。 * 检验条件:$n\hat{p} = 400 \times 0.30 = 120 \ge 10$ 且 $n(1-\hat{p}) = 400 \times 0.70 = 280 \ge 10$。条件满足,分布近似正态。 * 确定临界值:对于95%置信度,$z^* = 1.96$。 * 计算置信区间: $$ 0.30 \pm 1.96 \sqrt{\frac{0.30(1-0.30)}{400}} = 0.30 \pm 1.96 \sqrt{\frac{0.21}{400}} \approx 0.30 \pm 1.96 \times 0.0229 \approx 0.30 \pm 0.045 $$ 置信区间为 $(0.255, 0.345)$。 * 解释:我们有95%的信心认为,该大学所有学生中每天喝咖啡的真实比例在 25.5% 到 34.5% 之间。

### 2. 进行假设检验

我们也可以使用样本比例来检验关于总体比例 $p$ 的某个声明或假设是否成立。这称为{{{假设检验}}} (Hypothesis Testing)。

检验过程涉及设立{{{零假设}}} ($H_0$) 和{{{备择假设}}} ($H_a$),并计算一个{{{z统计量}}} (z-statistic) 来衡量我们的样本结果与零假设的偏离程度。

检验统计量的公式为:

$$ z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} $$

其中: * $\hat{p}$ 是从数据中计算出的样本比例。 * $p_0$ 是在零假设中我们假设的总体比例。 * $n$ 是样本量。

注意:在假设检验中,计算标准误时我们使用的是零假设中的 $p_0$,而不是样本的 $\hat{p}$。这是因为检验的前提是假设零假设为真。

## 与样本均值的区别

需要将样本比例与{{{样本均值}}} ($\bar{x}$) 区分开来:

* 样本比例 ($\hat{p}$):用于处理{{{分类数据}}} (Categorical Data),特别是只有两种可能结果的二元数据(例如:是/否,通过/未通过,患病/健康)。它代表了“成功”类别的频率。 * 样本均值 ($\bar{x}$):用于处理{{{定量数据}}} (Quantitative Data) 或称数值型数据(例如:身高、体重、收入、考试分数)。它代表了样本数值的算术平均值。