参数估计理论 (Parameter Estimation Theory)
参数估计理论是数理统计的核心分支,研究如何利用样本数据对总体的未知参数(如均值、方差、回归系数等)进行推断。参数估计与假设检验并列为统计推断的两大支柱,是计量经济学、生物统计和机器学习中几乎所有定量方法的基础。
基本框架
设总体分布族为 P={Pθ:θ∈Θ},其中 θ 为未知参数向量,Θ⊆Rk 为参数空间。给定独立同分布样本 X1,…,Xn∼Pθ0(θ0 为真值),参数估计的目标是构造统计量 θ^n=T(X1,…,Xn) 作为 θ0 的估计值。估计理论主要研究两类方法:点估计(给出单一最佳猜测值)和区间估计(给出参数的合理取值范围)。
点估计方法
矩估计法 (Method of Moments)
由卡尔·皮尔逊于 1894 年提出,是最古老的系统估计方法。其思想是将总体矩表示为参数的函数 mk(θ)=Eθ[Xk],然后用样本矩 m^k=n1∑i=1nXik 替代,解方程组 m^k=mk(θ) 得到估计量。矩估计计算简单、直观,但在小样本下效率往往低于最大似然估计。
最大似然估计 (MLE)
由费雪于 1912—1922 年间系统发展。似然函数 L(θ)=∏i=1nf(Xi;θ) 表示在给定参数 θ 下观测到当前样本的概率(或密度)。MLE 选择使似然函数最大的参数值:
θ^MLE=argθ∈ΘmaxL(θ)=argθ∈Θmaxℓ(θ)=i=1∑nlnf(Xi;θ)
其中 ℓ(θ) 为对数似然。在正则性条件下,MLE 具有一致性、渐近正态性和渐近有效性(达到Cramér-Rao 下界)。这些优良大样本性质使 MLE 成为应用最广泛的估计方法。
贝叶斯估计
在贝叶斯统计框架下,参数 θ 被视为随机变量,具有先验分布 π(θ)。通过贝叶斯定理结合数据得到后验分布:
π(θ∣X)=∫f(X∣θ)π(θ)dθf(X∣θ)π(θ)
常见的贝叶斯点估计包括后验均值 θ^Bayes=E[θ∣X] 和最大后验估计 (MAP)。贝叶斯方法能自然地纳入先验信息,并在小样本下通过收缩(shrinkage)改善估计精度。
估计量的评价准则
\paragraph{无偏性 (Unbiasedness)} 估计量满足 Eθ[θ^n]=θ 对所有 θ∈Θ 成立。偏差定义为 Bias(θ^n)=E[θ^n]−θ。例如,样本方差的分母使用 n−1 而非 n 正是为了保证无偏性。但需注意,无偏性并非绝对要求——岭回归和Lasso 通过引入偏差显著降低方差以提高整体预测表现。
\paragraph{一致性 (Consistency)} 当样本量 n→∞ 时,θ^npθ0(依概率收敛)。一致性是对估计量最低的渐近要求:随着数据增多,估计应越来越接近真值。MLE 和矩估计在温和条件下均满足一致性。
\paragraph{有效性 (Efficiency)} 在无偏估计量中,方差越小越有效。Cramér-Rao 不等式给出无偏估计量方差的下界:Var(θ^)≥1/I(θ),其中 I(θ) 为信息矩阵 (Information matrix)。达到该下界的估计量称为有效估计量。
\paragraph{均方误差 (MSE)} 综合偏差与方差:MSE=Bias2+Variance。MSE 避免了无偏性准则的教条性,允许在有偏但方差极小的估计量中进行合理选择。
区间估计
区间估计在点估计的基础上给出参数的置信范围。对于置信水平 1−α,置信区间 [L(X),U(X)] 满足:
Pθ(L(X)≤θ≤U(X))≥1−α,∀θ∈Θ
区间估计的关键方法包括基于枢轴量的精确构造、基于 MLE 渐近正态性的 Wald 区间、以及基于似然比的剖面似然置信区间。在计量经济学中,Delta 方法常用于非线性变换后的参数区间估计。
与计量经济学的关系
在线性回归模型 y=Xβ+ε 中,普通最小二乘法 (OLS) 估计量 β^=(X′X)−1X′y 在 Gauss-Markov 假设下是最佳线性无偏估计 (BLUE)。当误差服从正态分布时,OLS 等价于 MLE。在工具变量、广义矩估计 (GMM) 和面板数据模型中,参数估计理论为识别策略和推断方法提供了统一的数学框架。