← 返回

茆诗松统计学核心速通讲义 - 7.6非参数检验 - 7.6非参数检验

版权声明:本讲义为Knowecon制作,受版权保护。未经授权,禁止复制、传播。仅供Knowecon小小班学员学习使用。

非参数检验 ### 游程检验 在统计推断中,许多方法要求数据是从同一个总体中随机抽取的。然而,实际中可能由于各种原因,数据不满足随机抽取的假设。此时,需要通过游程检验 (runs test) 来检验数据的随机性。 #### 定义:游程检验 游程检验 (runs test) 是一种非参数检验方法,用于判断数据序列中元素的分布是否具有随机性。通过分析序列中连续相同元素的游程(runs)的数量,判断数据是否受到非随机因素的影响。 #### 备注 游程 (runs) 指的是序列中连续相同元素的连续段。例如,序列 0, 1, 0, 1, 1 有三个游程:0,1,0, 1, 1。 ### 检验步骤 1. 数据转换:设 $x_1, x_2, \ldots, x_n$ 为按时间顺序排列的样本观测值。计算样本的中位数 $m_e$,将序列中小于 $m_e$$x_i$ 替换为 0,大于或等于 $m_e$$x_i$ 替换为 1,得到二元序列。 2. 计算游程数:统计序列中的 0 游程和 1 游程的总数 $R$。 3. 确定拒绝域:根据样本中 0 和 1 的个数 $n_1$$n_2$,在原假设 $H_0$ 为真时,计算 $R$ 的概率分布。设拒绝域为 $\{R \leqslant c_1\} \cup \{R \geqslant c_2\}$,其中 $c_1$$c_2$ 是临界值。 4. 做出决策:若观测到的 $R$ 落在拒绝域内,则拒绝原假设,认为数据不符合随机抽取的原则;否则,接受原假设。 ### 游程数的分布 假设序列中 0 和 1 的个数分别为 $n_1$$n_2$,总游程数为 $R$。在原假设 $H_0$ 下,$R$ 的分布可以分为以下两种情况: - 当 $R = 2k$ 时,0 游程和 1 游程的数量均为 $k$。 - 当 $R = 2k + 1$ 时,要么 0 游程为 $k$ 且 1 游程为 $k + 1$,要么反之。 利用组合数,可以得到:
$$ P(R = 2k) = \frac{2 \binom{n_1 - 1}{k - 1} \binom{n_2 - 1}{k - 1}}{\binom{n_1 + n_2}{n_1}}, \quad k = 1, 2, \ldots, \left[ \frac{n}{2} \right] $$
$$ P(R = 2k + 1) = \frac{\binom{n_1 - 1}{k - 1} \binom{n_2 - 1}{k} + \binom{n_1 - 1}{k} \binom{n_2 - 1}{k - 1}}{\binom{n_1 + n_2}{n_1}}, \quad k = 1, 2, \ldots, \left[ \frac{n - 1}{2} \right] $$
#### 备注 当样本量 $n_1, n_2$ 较小时,可以利用上述公式精确计算临界值和 $p$ 值。对于较大的样本量,人们通常使用渐近分布来简化计算。 ### 渐近分布 当 $n_1, n_2 \to \infty$$n_1 / n_2 \to c$(常数)时,游程数 $R$ 的标准化形式趋近于标准正态分布:
$$ \frac{R - \frac{2n_1}{1 + c}}{\sqrt{\frac{4c n_1}{(1 + c)^2}}} \xrightarrow{L} N(0, 1) $$
因此,当 $n_1, n_2$ 较大时,可以近似采用:
$$ \begin{aligned} c_1 &= \left[ \frac{2n_1 n_2}{n_1 + n_2} \left( 1 + \frac{u_{\alpha / 2}}{\sqrt{n_1 + n_2}} \right) \right], \\ c_2 &= \left[ \frac{2n_1 n_2}{n_1 + n_2} \left( 1 + \frac{u_{1 - \alpha / 2}}{\sqrt{n_1 + n_2}} \right) \right] + 1, \end{aligned} $$
其中 $u_{\alpha/2}$ 为标准正态分布的分位点。当 $n_1, n_2 > 20$ 时,以上近似效果良好。 ### 游程检验的扩展 除了检验单个样本的随机性外,游程检验还可用于检验两个总体的分布是否相同。具体步骤如下: 1. 合并两个样本,按从小到大的顺序排列为 $z_1 \leqslant z_2 \leqslant \cdots \leqslant z_{m+n}$。 2. 对合并后的序列,若 $z_i$ 来自总体 $X$,则设 $w_i = 0$;若来自总体 $Y$,则设 $w_i = 1$,得到二元序列 $w_1, w_2, \ldots, w_{m+n}$。 3. 计算游程数 $R$,若 $R$ 较小,表明两个总体的分布可能不同;若 $R$ 较大,则支持两个总体分布相同的原假设。 4. 设定拒绝域为 $\{R \leqslant c\}$,其中 $c$ 为根据两个样本大小和显著性水平计算的临界值。 ### 例:游程检验的应用 对某型号的 20 根电缆依次进行耐压试验,测得数据如下: | 156.0 | 255.5 | 132.0 | 246.7 | 867.9 | 86.4 | 610.4 | 125.7 | 150.4 | 117.6 | | —– | —– | —– | —– | —– | —– | —– | —– | —– | —– | | 201.9 | 207.2 | 189.8 | 585.8 | 153.1 | 565.4 | 511.0 | 567.0 | 222.3 | 141.5 | 判断这些数据是否受到非随机因素的干扰。 解答: 1. 计算中位数:
$$ m_e = \frac{1}{2}(201.9 + 207.2) = 204.6 $$
2. 转换序列: 0 1 0 1 1 0 1 0 0 0 0 1 0 1 0 1 1 1 1 0 3. 统计游程数 $R = 13$。 4. 确定拒绝域:
$$ W = \{R \leqslant 6 \ \text{或} \ R \geqslant 16\} $$
5. 判断: $6 < 13 < 16 \Rightarrow$ 接受原假设,认为数据是随机选取的。 6. 计算 $p$ 值:
$$ p = 2 \times \min \{P(R \leqslant 13), P(R \geqslant 13)\} = 2 \times 0.2422 = 0.4844 $$
显著性水平为 $\alpha=0.05$

Content truncated. Please enter passkey to view full content.

Knowecon Chat

$