ARTICLE

高等统计学

高等统计学 高等统计学→本科概率论与数理统计之深化→以测度论为基→系统构建统计推断的数学理论体系。核心关切三:估计→检验→决策→均置于严格的渐近框架下→追问"为什么有效"而非"如何计算"。区别于初级统计的工具导向→高等统计追求最优性证明→信息不等式→容许性等理论命题→是计量经济学、生物统计、机器学习理论的共同根基。 概率基础:测度论重构 高等统计的第一道门槛

浏览 0 更新 2025-12-20

高等统计学

高等统计学→本科概率论与数理统计之深化→以测度论为基→系统构建统计推断的数学理论体系。核心关切三:估计→检验→决策→均置于严格的渐近框架下→追问"为什么有效"而非"如何计算"。区别于初级统计的工具导向→高等统计追求最优性证明→信息不等式容许性等理论命题→是计量经济学、生物统计、机器学习理论的共同根基。

概率基础:测度论重构

高等统计的第一道门槛→用测度论重新定义概率。随机变量不再是离散/连续的二分→而是(Ω,F,P)(\Omega, \mathcal{F}, \mathbb{P})上的可测函数。核心概念链:σ\sigma-代数→概率测度→勒贝格积分→期望→条件期望(作为Radon-Nikodym导数)→。此框架统一了离散、连续、混合分布→使大数定律中心极限定理的证明严格化。条件期望E[YX]\mathbb{E}[Y|X]被定义为σ(X)\sigma(X)-可测且满足AYdP=AE[YX]dP\int_A Y d\mathbb{P} = \int_A \mathbb{E}[Y|X] d\mathbb{P}的随机变量→奠定回归与预测的理论根基。鞅论则引入停时、可选抽样定理→为序贯分析和生存分析的数学基础。

估计理论:有限样本最优性

有限样本理论围绕三大最优性准则展开。第一,无偏性E[θ^]=θ\mathbb{E}[\hat{\theta}] = \theta→但无偏并非绝对美德→有时有偏估计可在MSE上碾压无偏(如James-Stein估计→见后)。第二,UMVUE(一致最小方差无偏估计)→由Lehmann-Scheffé定理完整刻画:若TT是充分完备统计量→则E[h(T)]\mathbb{E}[h(T)]即UMVUE→无须另行搜索。充分性由因子分解定理判定:f(xθ)=g(T(x)θ)h(x)f(x|\theta) = g(T(x)|\theta)h(x)→统计量捕获样本全部信息。Rao-Blackwell定理则保证:对任何粗糙估计δ\delta→取条件期望E[δT]\mathbb{E}[\delta|T]必不增方差→且若TT为充分→则改进后的估计优于原估计。

第三,信息不等式(Cramér-Rao):Var(θ^)1/I(θ)\operatorname{Var}(\hat{\theta}) \geq 1/I(\theta)I(θ)=E[2lnf/θ2]I(\theta) = -\mathbb{E}[\partial^2 \ln f/\partial \theta^2]Fisher信息→达下界者称有效估计。多维推广:Cov(θ^)I(θ)1\operatorname{Cov}(\hat{\boldsymbol{\theta}}) \succeq \mathbf{I}(\boldsymbol{\theta})^{-1}→正定序→即协方差阵与逆Fisher信息阵之差半正定。需注意Cramér-Rao仅适用于正则模型→对非正则(如均匀分布)失效。

MLE的中心地位:似然函数L(θ)=f(xiθ)L(\theta) = \prod f(x_i|\theta)→最大化得θ^MLE\hat{\theta}_{MLE}。有限样本未必无偏→但渐近最优(见下节)。指数族内MLE即矩估计→计算简便。EM算法处理缺失/潜变量→交替E步(条件期望)与M步(最大化)→是MLE计算的核心工具。

渐近理论

渐近理论关注nn \to \infty行为→是大样本推断的基石。一致性θ^npθ\hat{\theta}_n \xrightarrow{p} \theta→常见证法为切比雪夫不等式结合方差→0→或使用Wald一致性:若MLE→在紧参数空间且可识别→则一致。渐近正态性n(θ^nθ)dN(0,Σ)\sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} \mathcal{N}(0, \Sigma)→核心工具:Slutsky定理XnX,YncXn+YnX+cX_n \to X, Y_n \to c \Rightarrow X_n+Y_n \to X+c)→Delta方法n(g(θ^)g(θ))N(0,gΣg)\sqrt{n}(g(\hat{\theta}) - g(\theta)) \to \mathcal{N}(0, \nabla g' \Sigma \nabla g))。渐近效率:MLE在正则条件下达Cramér-Rao下界→即n(θ^MLEθ)N(0,1/I(θ))\sqrt{n}(\hat{\theta}_{MLE} - \theta) \to \mathcal{N}(0, 1/I(\theta))→称为BAN(最佳渐近正态)→这是MLE被广泛使用的理论背书。M估计(广义估计方程)与Z估计(估计方程零点)统一了MLE→矩估计→最小二乘→分位数回归→均可在统一框架下获得渐近性质。

假设检验理论

Neyman-Pearson引理→对简单H0:θ=θ0H_0:\theta=\theta_0 vs H1:θ=θ1H_1:\theta=\theta_1→似然比检验L(θ1)/L(θ0)>kL(\theta_1)/L(\theta_0) > k→在给定α\alpha下最大化势→是一切最优检验的理论起点。推广至复合假设→一致最优势检验(UMP)→需单调似然比(MLR)性质→指数族分布天然满足→单侧检验常得UMP。双侧检验一般无UMP→退而求UMP无偏检验→控制所有θ\theta的势不低于α\alpha

似然比检验(LRT)λ=supΘ0L/supΘL\lambda = \sup_{\Theta_0} L / \sup_{\Theta} L→Wilk定理→2lnλdχr2-2\ln\lambda \xrightarrow{d} \chi^2_rrr为约束个数)→通用渐近方法→无需MLR。Wald检验基于(θ^θ0)Cov^1(θ^θ0)dχ2(\hat{\theta} - \theta_0)'\widehat{\operatorname{Cov}}^{-1}(\hat{\theta} - \theta_0) \xrightarrow{d} \chi^2→仅需无约束估计。Rao得分检验基于对数似然在H0H_0处的梯度→仅需有约束估计。三者渐近等价→小样本各有侧重:LRT精度最高→Wald计算最易→得分对模型错误更稳健。

决策理论与贝叶斯

统计决策理论(Wald, 1950)统一估计与检验:损失函数L(θ,δ(x))L(\theta, \delta(x))风险函数R(θ,δ)=Eθ[L(θ,δ(X))]R(\theta, \delta) = \mathbb{E}_\theta[L(\theta, \delta(X))]。估计量比较→风险函数→但通常不存在一致最优(如θ^1\hat{\theta}_1在某些θ\theta好→θ^2\hat{\theta}_2在另些θ\theta好)→引容许性:若无其他决策处处不差且某处严格更优→则容许。

Stein悖论(1956):多维正态均值μ\boldsymbol{\mu}→损失为平方误差和→p2p \leq 2时样本均值为容许→p3p \geq 3时样本均值不可容许James-Stein估计μ^JS=(1p2Xˉ2)Xˉ\hat{\mu}^{JS} = (1 - \frac{p-2}{\|\bar{X}\|^2})\bar{X}→向原点压缩→处处优于Xˉ\bar{X}→颠覆"MLE/无偏必最优"的直觉→启示现代高维统计中的收缩估计

贝叶斯方法:先验π(θ)\pi(\theta)+数据→后验π(θx)L(θ)π(θ)\pi(\theta|x) \propto L(\theta)\pi(\theta)共轭先验→计算便利→指数族天然配(正态-正态、Beta-二项、Gamma-泊松)。Bernstein-von Mises定理nn大时后验渐近正态N(θ^MLE,1/(nI))\mathcal{N}(\hat{\theta}_{MLE}, 1/(nI))→贝叶斯与频率学派渐近趋同→两种范式在数学上握手。经验贝叶斯从数据估计先验参数→James-Stein可理解为经验贝叶斯特例。

现代延伸

高等统计的现代脉络延至三个前沿方向。经验过程理论:用Glivenko-Cantelli类(一致收敛)与Donsker类(Brownian桥逼近→弱收敛于Gaussian过程)统一处理M估计、分位数回归、ROC曲线等渐近分布→是理解复杂统计方法渐近性质的通用语言。高维统计pnp \gg n场景下→传统渐近理论失效→Lasso通过1\ell_1惩罚实现变量选择与收缩→Oracle不等式保证估计风险的阶最优→Ridge、弹性网等方法将惩罚泛函推广至一般正则化框架→理论基础为凸优化与集中不等式。非参数统计:核密度估计f^(x)=1nhK(Xixh)\hat{f}(x) = \frac{1}{nh}\sum K(\frac{X_i-x}{h})→带宽hh的选择是偏差-方差权衡的核心→Silverman经验法则与交叉验证是实用工具→渐近最优收敛速度O(n4/5)O(n^{-4/5})慢于参数模型的O(n1)O(n^{-1})→这是非参数灵活性的代价。工具虽日新月异→核心始终是高等统计之三角:测度概率为筋骨→渐近展开为利刃→最优决策为终点。

与其他学科的关系

高等统计学与计量经济学的关系尤为紧密→Hansen的GMM理论、Heckman的选择模型→其渐近性质均依赖M估计框架。与机器学习的交叉则体现在:PAC学习理论→VC维→经验风险最小化→均可追溯至高等统计中的经验过程与集中不等式。与贝叶斯统计的比较→本质是频率与信念之辩→但Bernstein-von Mises定理表明→数据足够时→两派殊途同归。掌握此三角→则统计方法之优劣→皆可自行推导判断。