ARTICLE

有限样本性质

有限样本性质 (Finite Sample Properties) 有限样本性质 (Finite Sample Properties) 是数理统计和计量经济学中评价估计量表现的核心维度,指在任意给定的固定样本量 n 下严格成立(而非仅当 n 时趋近)的统计性质。与之对应的是大样本性质(渐近性质),后者仅保证在样本量趋于无穷时估计量具有理想行为。一套优良的有限

浏览 0 更新 2025-10-26

有限样本性质 (Finite Sample Properties)

有限样本性质 (Finite Sample Properties) 是数理统计计量经济学中评价估计量表现的核心维度,指在任意给定的固定样本量 nn 下严格成立(而非仅当 nn \to \infty 时趋近)的统计性质。与之对应的是大样本性质(渐近性质),后者仅保证在样本量趋于无穷时估计量具有理想行为。一套优良的有限样本性质意味着估计方法在可获得的实际数据规模下——无论样本量大小——均表现出色,因而更具理论说服力。

无偏性与最佳无偏估计

有限样本理论的首要概念是无偏性 (Unbiasedness)。设 θ^n\hat{\theta}_n 为未知参数 θ\theta 的估计量,若对任意样本量 nn 均有 E[θ^n]=θ\mathbb{E}[\hat{\theta}_n] = \theta,则称 θ^n\hat{\theta}_n无偏估计量。无偏性保证估计量在重复抽样下不会系统性地高估或低估真实参数。例如,样本均值 Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i 是总体均值 μ\mu 的无偏估计,而样本方差的分母为 n1n-1(而非 nn)的设定正是为了确保其无偏性:E[S2]=E[1n1(XiXˉ)2]=σ2\mathbb{E}[S^2] = \mathbb{E}\left[\frac{1}{n-1}\sum (X_i - \bar{X})^2\right] = \sigma^2

然而,无偏性并非衡量估计量的唯一标准。在无偏估计量构成的类中,追求最小方差引出了最小方差无偏估计 (MVUE, Minimum Variance Unbiased Estimator) 的概念。若 θ^\hat{\theta}^* 是所有无偏估计量中方差最小者,即对任意其他无偏估计量 θ~\tilde{\theta} 均有 Var(θ^)Var(θ~)\operatorname{Var}(\hat{\theta}^*) \leq \operatorname{Var}(\tilde{\theta}),则 θ^\hat{\theta}^* 为 MVUE。Cramér-Rao下界为此提供了理论基准:任何无偏估计量的方差不可能低于 Fisher 信息量 I(θ)\mathcal{I}(\theta) 的倒数,即 Var(θ^)1/I(θ)\operatorname{Var}(\hat{\theta}) \geq 1 / \mathcal{I}(\theta)。达到该下界的估计量称为有效估计量。

高斯-马尔可夫定理与线性估计量

线性回归模型 y=Xβ+εy = X\beta + \varepsilon 中,高斯-马尔可夫定理 (Gauss-Markov Theorem) 是有限样本性质最著名的应用。在经典假设——E[εX]=0\mathbb{E}[\varepsilon|X] = 0(严格外生性)与 Var(εX)=σ2I\operatorname{Var}(\varepsilon|X) = \sigma^2 I(球形扰动)——下,普通最小二乘法 (OLS) 估计量 β^OLS=(XX)1Xy\hat{\beta}_{\text{OLS}} = (X'X)^{-1}X'y 在所有线性无偏估计量中具有最小方差。换言之,OLS 是最佳线性无偏估计 (BLUE, Best Linear Unbiased Estimator)。该结论不依赖扰动项的正态性假设,也无需诉诸大样本论证——它针对任意固定 nn 精确成立。

需注意的是,BLUE 性质的成立条件十分严格。若球形扰动假设被打破——如存在异方差自相关——OLS 不再为 BLUE;此时广义最小二乘法 (GLS) 在有限样本下恢复最优性。此外,若无偏性约束被放松,则存在有偏但方差更小的估计量(如岭回归),使得均方误差 (MSE) 低于 OLS,反映出有限样本推断中偏差-方差权衡的普遍性。

精确推断与小样本分布

有限样本框架的另一重要应用是精确统计推断。在经典正态线性模型 y=Xβ+ε, εN(0,σ2I)y = X\beta + \varepsilon,\ \varepsilon \sim N(0, \sigma^2 I) 的假设下,OLS 估计量的抽样分布可精确推导:

β^N(β,σ2(XX)1),(nk)s2σ2χnk2\hat{\beta} \sim N(\beta, \sigma^2 (X'X)^{-1}),\quad \frac{(n-k)s^2}{\sigma^2} \sim \chi^2_{n-k}

由此构造的 tt 统计量服从精确的学生t分布(而非渐近正态),FF 统计量服从精确的F分布。这些结果是有限样本推断的基石——无论样本量多小,只要正态假设成立,推断结论即具精确的统计学保证。

有限样本性质与渐近性质的张力

在实际计量经济学研究中,有限样本性质和渐近性质之间存在持久的张力。许多经典估计量——如最大似然估计 (MLE) 和广义矩估计 (GMM)——仅具备渐近优良性(相合性与渐近正态性),小样本表现可能偏差显著。例如,MLE 在大样本下是渐近有效且无偏的,但在有限样本中可呈现严重偏差(如方差分量模型的 MLE 估计倾向于低估方差参数)。工具变量 (IV) 估计在弱工具条件下,即使样本量达到数百,其有限样本偏误仍不可忽视。

另一方面,部分估计量具有优良的有限样本性质但渐近性能略逊。例如,在具有正态扰动的线性模型中,OLS 是有限样本下的 BLUE,但若扰动分布厚尾,稳健估计量(如最小绝对偏差估计)虽在小样本下牺牲一些效率,却在大样本下更加鲁棒。

计量经济学教材通常将有限样本性质作为理论起点,因为其论证清晰且不依赖渐近逼近的可靠性条件。然而,当模型的经典假设不成立或估计量高度非线性时,研究者不得不诉诸渐近理论。两类性质共同构成了评价统计方法的完整框架:有限样本性质回答"在现有所能获得的数据下,估计量表现如何",而渐近性质则回答"随着数据积累,估计量能否趋于正确"。一个优良的计量方法应兼具令人满意的有限样本表现与可靠的渐近保证。