ARTICLE

参数估计理论

参数估计理论 (Parameter Estimation Theory) 参数估计理论是数理统计的核心分支,研究如何利用样本数据对总体的未知参数(如均值、方差、回归系数等)进行推断。参数估计与假设检验并列为统计推断的两大支柱,是计量经济学、生物统计和机器学习中几乎所有定量方法的基础。 基本框架 设总体分布族为 P = \P_ : \,其中 为未知参数向量,

浏览 0 更新 2026-06-14

参数估计理论 (Parameter Estimation Theory)

参数估计理论数理统计的核心分支,研究如何利用样本数据对总体的未知参数(如均值、方差、回归系数等)进行推断。参数估计与假设检验并列为统计推断的两大支柱,是计量经济学生物统计机器学习中几乎所有定量方法的基础。

基本框架

设总体分布族为 P={Pθ:θΘ}\mathcal{P} = \{P_\theta : \theta \in \Theta\},其中 θ\theta 为未知参数向量,ΘRk\Theta \subseteq \mathbb{R}^k参数空间。给定独立同分布样本 X1,,XnPθ0X_1, \ldots, X_n \sim P_{\theta_0}θ0\theta_0 为真值),参数估计的目标是构造统计量 θ^n=T(X1,,Xn)\hat{\theta}_n = T(X_1, \ldots, X_n) 作为 θ0\theta_0 的估计值。估计理论主要研究两类方法:点估计(给出单一最佳猜测值)和区间估计(给出参数的合理取值范围)。

点估计方法

矩估计法 (Method of Moments)

卡尔·皮尔逊于 1894 年提出,是最古老的系统估计方法。其思想是将总体矩表示为参数的函数 mk(θ)=Eθ[Xk]m_k(\theta) = \mathbb{E}_\theta[X^k],然后用样本矩 m^k=1ni=1nXik\hat{m}_k = \frac{1}{n}\sum_{i=1}^n X_i^k 替代,解方程组 m^k=mk(θ)\hat{m}_k = m_k(\theta) 得到估计量。矩估计计算简单、直观,但在小样本下效率往往低于最大似然估计。

最大似然估计 (MLE)

费雪于 1912—1922 年间系统发展。似然函数 L(θ)=i=1nf(Xi;θ)L(\theta) = \prod_{i=1}^n f(X_i; \theta) 表示在给定参数 θ\theta 下观测到当前样本的概率(或密度)。MLE 选择使似然函数最大的参数值:

θ^MLE=argmaxθΘL(θ)=argmaxθΘ(θ)=i=1nlnf(Xi;θ)\hat{\theta}_{MLE} = \arg\max_{\theta \in \Theta} L(\theta) = \arg\max_{\theta \in \Theta} \ell(\theta) = \sum_{i=1}^n \ln f(X_i; \theta)

其中 (θ)\ell(\theta) 为对数似然。在正则性条件下,MLE 具有一致性渐近正态性渐近有效性(达到Cramér-Rao 下界)。这些优良大样本性质使 MLE 成为应用最广泛的估计方法。

贝叶斯估计

贝叶斯统计框架下,参数 θ\theta 被视为随机变量,具有先验分布 π(θ)\pi(\theta)。通过贝叶斯定理结合数据得到后验分布:

π(θX)=f(Xθ)π(θ)f(Xθ)π(θ)dθ\pi(\theta | X) = \frac{f(X|\theta) \pi(\theta)}{\int f(X|\theta) \pi(\theta) d\theta}

常见的贝叶斯点估计包括后验均值 θ^Bayes=E[θX]\hat{\theta}_{Bayes} = \mathbb{E}[\theta|X] 和最大后验估计 (MAP)。贝叶斯方法能自然地纳入先验信息,并在小样本下通过收缩(shrinkage)改善估计精度。

估计量的评价准则

\paragraph{无偏性 (Unbiasedness)} 估计量满足 Eθ[θ^n]=θ\mathbb{E}_\theta[\hat{\theta}_n] = \theta 对所有 θΘ\theta \in \Theta 成立。偏差定义为 Bias(θ^n)=E[θ^n]θ\text{Bias}(\hat{\theta}_n) = \mathbb{E}[\hat{\theta}_n] - \theta。例如,样本方差的分母使用 n1n-1 而非 nn 正是为了保证无偏性。但需注意,无偏性并非绝对要求——岭回归Lasso 通过引入偏差显著降低方差以提高整体预测表现。

\paragraph{一致性 (Consistency)} 当样本量 nn \to \infty 时,θ^npθ0\hat{\theta}_n \xrightarrow{p} \theta_0(依概率收敛)。一致性是对估计量最低的渐近要求:随着数据增多,估计应越来越接近真值。MLE 和矩估计在温和条件下均满足一致性。

\paragraph{有效性 (Efficiency)} 在无偏估计量中,方差越小越有效。Cramér-Rao 不等式给出无偏估计量方差的下界:Var(θ^)1/I(θ)\operatorname{Var}(\hat{\theta}) \geq 1/\mathcal{I}(\theta),其中 I(θ)\mathcal{I}(\theta)信息矩阵 (Information matrix)。达到该下界的估计量称为有效估计量。

\paragraph{均方误差 (MSE)} 综合偏差与方差:MSE=Bias2+Variance\text{MSE} = \text{Bias}^2 + \text{Variance}。MSE 避免了无偏性准则的教条性,允许在有偏但方差极小的估计量中进行合理选择。

区间估计

区间估计在点估计的基础上给出参数的置信范围。对于置信水平 1α1-\alpha置信区间 [L(X),U(X)][L(X), U(X)] 满足:

Pθ(L(X)θU(X))1α,θΘP_\theta(L(X) \leq \theta \leq U(X)) \geq 1 - \alpha, \quad \forall \theta \in \Theta

区间估计的关键方法包括基于枢轴量的精确构造、基于 MLE 渐近正态性的 Wald 区间、以及基于似然比的剖面似然置信区间。在计量经济学中,Delta 方法常用于非线性变换后的参数区间估计。

与计量经济学的关系

线性回归模型 y=Xβ+εy = X\beta + \varepsilon 中,普通最小二乘法 (OLS) 估计量 β^=(XX)1Xy\hat{\beta} = (X'X)^{-1}X'y 在 Gauss-Markov 假设下是最佳线性无偏估计 (BLUE)。当误差服从正态分布时,OLS 等价于 MLE。在工具变量广义矩估计 (GMM) 和面板数据模型中,参数估计理论为识别策略和推断方法提供了统一的数学框架。