高等统计学
高等统计学 →本科概率论与数理统计 之深化→以测度论 为基→系统构建统计推断的数学理论体系。核心关切三:估计→检验→决策→均置于严格的渐近框架下→追问"为什么有效"而非"如何计算"。区别于初级统计的工具导向→高等统计追求最优性 证明→信息不等式 →容许性 等理论命题→是计量经济学、生物统计、机器学习理论的共同根基。
概率基础:测度论重构
高等统计的第一道门槛→用测度论 重新定义概率。随机变量不再是离散/连续的二分→而是( Ω , F , P ) (\Omega, \mathcal{F}, \mathbb{P}) ( Ω , F , P ) 上的可测函数。核心概念链:σ \sigma σ -代数 →概率测度→勒贝格积分 →期望→条件期望 (作为Radon-Nikodym导数 )→鞅 。此框架统一了离散、连续、混合分布→使大数定律 与中心极限定理 的证明严格化。条件期望E [ Y ∣ X ] \mathbb{E}[Y|X] E [ Y ∣ X ] 被定义为σ ( X ) \sigma(X) σ ( X ) -可测且满足∫ A Y d P = ∫ A E [ Y ∣ X ] d P \int_A Y d\mathbb{P} = \int_A \mathbb{E}[Y|X] d\mathbb{P} ∫ A Y d P = ∫ A E [ Y ∣ X ] d P 的随机变量→奠定回归与预测的理论根基。鞅论则引入停时、可选抽样定理→为序贯分析和生存分析的数学基础。
估计理论:有限样本最优性
有限样本理论 围绕三大最优性准则展开。第一,无偏性 →E [ θ ^ ] = θ \mathbb{E}[\hat{\theta}] = \theta E [ θ ^ ] = θ →但无偏并非绝对美德→有时有偏估计可在MSE上碾压无偏(如James-Stein估计→见后)。第二,UMVUE (一致最小方差无偏估计)→由Lehmann-Scheffé定理 完整刻画:若T T T 是充分完备统计量→则E [ h ( T ) ] \mathbb{E}[h(T)] E [ h ( T )] 即UMVUE→无须另行搜索。充分性由因子分解定理 判定:f ( x ∣ θ ) = g ( T ( x ) ∣ θ ) h ( x ) f(x|\theta) = g(T(x)|\theta)h(x) f ( x ∣ θ ) = g ( T ( x ) ∣ θ ) h ( x ) →统计量捕获样本全部信息。Rao-Blackwell定理 则保证:对任何粗糙估计δ \delta δ →取条件期望E [ δ ∣ T ] \mathbb{E}[\delta|T] E [ δ ∣ T ] 必不增方差→且若T T T 为充分→则改进后的估计优于原估计。
第三,信息不等式 (Cramér-Rao):Var ( θ ^ ) ≥ 1 / I ( θ ) \operatorname{Var}(\hat{\theta}) \geq 1/I(\theta) Var ( θ ^ ) ≥ 1/ I ( θ ) →I ( θ ) = − E [ ∂ 2 ln f / ∂ θ 2 ] I(\theta) = -\mathbb{E}[\partial^2 \ln f/\partial \theta^2] I ( θ ) = − E [ ∂ 2 ln f / ∂ θ 2 ] 为Fisher信息 →达下界者称有效估计 。多维推广:Cov ( θ ^ ) ⪰ I ( θ ) − 1 \operatorname{Cov}(\hat{\boldsymbol{\theta}}) \succeq \mathbf{I}(\boldsymbol{\theta})^{-1} Cov ( θ ^ ) ⪰ I ( θ ) − 1 →正定序→即协方差阵与逆Fisher信息阵之差半正定。需注意Cramér-Rao仅适用于正则模型→对非正则(如均匀分布)失效。
MLE 的中心地位:似然函数L ( θ ) = ∏ f ( x i ∣ θ ) L(\theta) = \prod f(x_i|\theta) L ( θ ) = ∏ f ( x i ∣ θ ) →最大化得θ ^ M L E \hat{\theta}_{MLE} θ ^ M L E 。有限样本未必无偏→但渐近最优(见下节)。指数族内MLE即矩估计→计算简便。EM算法处理缺失/潜变量→交替E步(条件期望)与M步(最大化)→是MLE计算的核心工具。
渐近理论
渐近理论关注n → ∞ n \to \infty n → ∞ 行为→是大样本推断的基石。一致性 :θ ^ n → p θ \hat{\theta}_n \xrightarrow{p} \theta θ ^ n p θ →常见证法为切比雪夫不等式结合方差→0→或使用Wald一致性:若MLE→在紧参数空间且可识别→则一致。渐近正态性 :n ( θ ^ n − θ ) → d N ( 0 , Σ ) \sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} \mathcal{N}(0, \Sigma) n ( θ ^ n − θ ) d N ( 0 , Σ ) →核心工具:Slutsky定理 (X n → X , Y n → c ⇒ X n + Y n → X + c X_n \to X, Y_n \to c \Rightarrow X_n+Y_n \to X+c X n → X , Y n → c ⇒ X n + Y n → X + c )→Delta方法 (n ( g ( θ ^ ) − g ( θ ) ) → N ( 0 , ∇ g ′ Σ ∇ g ) \sqrt{n}(g(\hat{\theta}) - g(\theta)) \to \mathcal{N}(0, \nabla g' \Sigma \nabla g) n ( g ( θ ^ ) − g ( θ )) → N ( 0 , ∇ g ′ Σ∇ g ) )。渐近效率 :MLE在正则条件下达Cramér-Rao下界→即n ( θ ^ M L E − θ ) → N ( 0 , 1 / I ( θ ) ) \sqrt{n}(\hat{\theta}_{MLE} - \theta) \to \mathcal{N}(0, 1/I(\theta)) n ( θ ^ M L E − θ ) → N ( 0 , 1/ I ( θ )) →称为BAN(最佳渐近正态)→这是MLE被广泛使用的理论背书。M估计(广义估计方程)与Z估计(估计方程零点)统一了MLE→矩估计→最小二乘→分位数回归→均可在统一框架下获得渐近性质。
假设检验理论
Neyman-Pearson引理 →对简单H 0 : θ = θ 0 H_0:\theta=\theta_0 H 0 : θ = θ 0 vs H 1 : θ = θ 1 H_1:\theta=\theta_1 H 1 : θ = θ 1 →似然比检验L ( θ 1 ) / L ( θ 0 ) > k L(\theta_1)/L(\theta_0) > k L ( θ 1 ) / L ( θ 0 ) > k →在给定α \alpha α 下最大化势→是一切最优检验的理论起点。推广至复合假设→一致最优势检验(UMP) →需单调似然比 (MLR)性质→指数族分布天然满足→单侧检验常得UMP。双侧检验一般无UMP→退而求UMP无偏检验 →控制所有θ \theta θ 的势不低于α \alpha α 。
似然比检验(LRT) :λ = sup Θ 0 L / sup Θ L \lambda = \sup_{\Theta_0} L / \sup_{\Theta} L λ = sup Θ 0 L / sup Θ L →Wilk定理→− 2 ln λ → d χ r 2 -2\ln\lambda \xrightarrow{d} \chi^2_r − 2 ln λ d χ r 2 (r r r 为约束个数)→通用渐近方法→无需MLR。Wald检验 基于( θ ^ − θ 0 ) ′ Cov ^ − 1 ( θ ^ − θ 0 ) → d χ 2 (\hat{\theta} - \theta_0)'\widehat{\operatorname{Cov}}^{-1}(\hat{\theta} - \theta_0) \xrightarrow{d} \chi^2 ( θ ^ − θ 0 ) ′ Cov − 1 ( θ ^ − θ 0 ) d χ 2 →仅需无约束估计。Rao得分检验 基于对数似然在H 0 H_0 H 0 处的梯度→仅需有约束估计。三者渐近等价→小样本各有侧重:LRT精度最高→Wald计算最易→得分对模型错误更稳健。
决策理论与贝叶斯
统计决策理论 (Wald, 1950)统一估计与检验:损失函数 L ( θ , δ ( x ) ) L(\theta, \delta(x)) L ( θ , δ ( x )) →风险函数 R ( θ , δ ) = E θ [ L ( θ , δ ( X ) ) ] R(\theta, \delta) = \mathbb{E}_\theta[L(\theta, \delta(X))] R ( θ , δ ) = E θ [ L ( θ , δ ( X ))] 。估计量比较→风险函数→但通常不存在一致最优(如θ ^ 1 \hat{\theta}_1 θ ^ 1 在某些θ \theta θ 好→θ ^ 2 \hat{\theta}_2 θ ^ 2 在另些θ \theta θ 好)→引容许性 :若无其他决策处处不差且某处严格更优→则容许。
Stein悖论 (1956):多维正态均值μ \boldsymbol{\mu} μ →损失为平方误差和→p ≤ 2 p \leq 2 p ≤ 2 时样本均值为容许→p ≥ 3 p \geq 3 p ≥ 3 时样本均值不可容许 。James-Stein估计 :μ ^ J S = ( 1 − p − 2 ∥ X ˉ ∥ 2 ) X ˉ \hat{\mu}^{JS} = (1 - \frac{p-2}{\|\bar{X}\|^2})\bar{X} μ ^ J S = ( 1 − ∥ X ˉ ∥ 2 p − 2 ) X ˉ →向原点压缩→处处优于X ˉ \bar{X} X ˉ →颠覆"MLE/无偏必最优"的直觉→启示现代高维统计中的收缩估计 。
贝叶斯方法 :先验π ( θ ) \pi(\theta) π ( θ ) +数据→后验π ( θ ∣ x ) ∝ L ( θ ) π ( θ ) \pi(\theta|x) \propto L(\theta)\pi(\theta) π ( θ ∣ x ) ∝ L ( θ ) π ( θ ) 。共轭先验 →计算便利→指数族天然配(正态-正态、Beta-二项、Gamma-泊松)。Bernstein-von Mises定理 →n n n 大时后验渐近正态N ( θ ^ M L E , 1 / ( n I ) ) \mathcal{N}(\hat{\theta}_{MLE}, 1/(nI)) N ( θ ^ M L E , 1/ ( n I )) →贝叶斯与频率学派渐近趋同→两种范式在数学上握手。经验贝叶斯 从数据估计先验参数→James-Stein可理解为经验贝叶斯特例。
现代延伸
高等统计的现代脉络延至三个前沿方向。经验过程理论 :用Glivenko-Cantelli 类(一致收敛)与Donsker 类(Brownian桥逼近→弱收敛于Gaussian过程)统一处理M估计、分位数回归、ROC曲线等渐近分布→是理解复杂统计方法渐近性质的通用语言。高维统计 :p ≫ n p \gg n p ≫ n 场景下→传统渐近理论失效→Lasso 通过ℓ 1 \ell_1 ℓ 1 惩罚实现变量选择与收缩→Oracle不等式保证估计风险的阶最优→Ridge、弹性网等方法将惩罚泛函推广至一般正则化框架→理论基础为凸优化与集中不等式。非参数统计 :核密度估计f ^ ( x ) = 1 n h ∑ K ( X i − x h ) \hat{f}(x) = \frac{1}{nh}\sum K(\frac{X_i-x}{h}) f ^ ( x ) = nh 1 ∑ K ( h X i − x ) →带宽h h h 的选择是偏差-方差权衡的核心→Silverman经验法则与交叉验证是实用工具→渐近最优收敛速度O ( n − 4 / 5 ) O(n^{-4/5}) O ( n − 4/5 ) 慢于参数模型的O ( n − 1 ) O(n^{-1}) O ( n − 1 ) →这是非参数灵活性的代价。工具虽日新月异→核心始终是高等统计之三角:测度概率为筋骨→渐近展开为利刃→最优决策为终点。
与其他学科的关系
高等统计学与计量经济学 的关系尤为紧密→Hansen的GMM理论、Heckman的选择模型→其渐近性质均依赖M估计框架。与机器学习 的交叉则体现在:PAC学习理论→VC维→经验风险最小化→均可追溯至高等统计中的经验过程与集中不等式。与贝叶斯统计 的比较→本质是频率与信念之辩→但Bernstein-von Mises定理表明→数据足够时→两派殊途同归。掌握此三角→则统计方法之优劣→皆可自行推导判断。
关于知经 KNOWECON
知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌,长期面向北京大学、清华大学、中国人民大学等顶尖院校,提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考,并成功进入理想院校。
知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业,获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者,长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。
我们相信,好的考研辅导不只是押题和陪跑,更是把复杂知识讲清楚、把复习路径设计清楚,并用技术让学习过程更可追踪、更可反馈、更可坚持。