ARTICLE

极大似然估计量

极大似然估计量 (Maximum Likelihood Estimator) 极大似然估计量 (Maximum Likelihood Estimator, MLE) 是统计学中最重要且应用最广泛的参数估计方法之一，由Ronald Fisher于1912年至1922年间系统发展并命名。其核心思想简洁而深刻：在给定观测数据的前提下，选择使该数据出现概率最大的参数

浏览 0 更新 2025-07-16

极大似然估计量 (Maximum Likelihood Estimator)

极大似然估计量 (Maximum Likelihood Estimator, MLE) 是统计学中最重要且应用最广泛的参数估计方法之一，由Ronald Fisher于1912年至1922年间系统发展并命名。其核心思想简洁而深刻：在给定观测数据的前提下，选择使该数据出现概率最大的参数值作为估计。换言之，MLE寻找最"可能"产生当前观测样本的参数取值，这种直觉使得MLE在各类统计模型中均具有天然吸引力。极大似然估计量建立在似然函数 (Likelihood Function) 概念之上，通过最大化该函数获得参数估计值。与矩估计等传统方法相比，MLE在渐近性质方面表现尤为出色，包括一致性、渐近正态性和渐近有效性，这些优良性质共同构成了MLE在理论和应用两个层面占据中心地位的基石，使其成为现代统计推断当之无愧的核心方法。

定义与基本原理

设观测数据为 $\mathbf{X} = (X_1, X_2, \ldots, X_n)$ ，服从联合概率分布 $f(\mathbf{x}; \theta)$ ，其中 $\theta \in \Theta$ 为待估参数。给定观测值 $\mathbf{x}$ ，似然函数定义为 $L(\theta; \mathbf{x}) = f(\mathbf{x}; \theta)$ ，即关于参数 $\theta$ 的函数。极大似然估计量 $\hat{\theta}_{\text{MLE}}$ 是使似然函数达到最大值的参数取值： $\hat{\theta}_{\text{MLE}} = \arg\max_{\theta \in \Theta} L(\theta; \mathbf{x})$ 。在实际计算中，由于乘积形式的似然函数在数值上不稳定且求导不便，通常使用对数似然函数 $\ell(\theta; \mathbf{x}) = \log L(\theta; \mathbf{x})$ 进行优化，利用对数函数的严格单调性确保最大化问题的等价性。对于满足正则条件的参数族，MLE可通过求解得分函数 (Score Function) 方程 $\partial \ell(\theta) / \partial \theta = 0$ 获得，该方程称为似然方程。当参数空间为多维时，得分函数变为梯度向量，似然方程相应扩展为梯度为零向量的方程组。若似然函数在参数空间内是全局凹的，则似然方程的解即为全局最大值点，这是广义线性模型等众多标准统计模型的重要理论基础。

MLE的直观理解可通过投掷硬币实验说明：假设一枚硬币正面朝上的概率为 $p$ ，在10次投掷中获得7次正面。似然函数为 $L(p) = p^7(1-p)^3$ ，为寻找使该值最大的 $p$ ，可求对数似然关于 $p$ 的导数并令其为零，解得 $\hat{p} = 0.7$ ，这正是样本中正面出现的频率。该结果符合直觉——在给定观测数据下，最可能产生7次正面的参数值正是样本比例本身。更一般地，对于独立同分布样本，MLE在指数族分布中往往具有解析形式，且与充分统计量紧密关联，这体现了Fisher-Neyman因子分解定理的核心思想。从更抽象的视角看，MLE可视为一种从数据到参数的映射，它将高维观测数据压缩为低维参数空间的点估计，在此压缩过程中最大程度地保留了数据关于参数的信息，这正是MLE渐近有效的内在原因。

正则条件与渐近性质

MLE优良的渐近性质依赖于一组称为正则条件 (Regularity Conditions) 的假设，主要包括：参数空间的开集性（确保参数在空间内部而非边界）、似然函数的二阶可微性（保证泰勒展开的有效性）、Fisher信息矩阵的正定性（确保参数的识别性）以及支持集不依赖于参数（避免非正则情形）。在这些条件下，MLE具有三项核心渐近性质。一致性 (Consistency) 指当样本量趋于无穷时， $\hat{\theta}_{\text{MLE}}$ 依概率收敛于真实参数 $\theta_0$ ，这是任何合理估计量的最低要求。渐近正态性 (Asymptotic Normality) 表明 $\sqrt{n}(\hat{\theta}_{\text{MLE}} - \theta_0) \xrightarrow{d} N(0, \mathcal{I}(\theta_0)^{-1})$ ，其中 $\mathcal{I}(\theta_0)$ 为Fisher信息矩阵，该性质为基于MLE的假设检验和置信区间构造提供了渐近分布基础。渐近有效性 (Asymptotic Efficiency) 意味着MLE在所有一致且渐近正态的估计量中渐近方差最小，达到Cramér-Rao下界 (Cramér-Rao Lower Bound)，这使得MLE在渐近意义上成为最优估计量。此外，MLE还具有不变性 (Invariance Property)：若 $\hat{\theta}$ 是 $\theta$ 的MLE，则对任意参数变换 $g(\theta)$ ， $g(\hat{\theta})$ 也是 $g(\theta)$ 的MLE，这一性质极大方便了实际应用中的参数重参数化操作。这些性质共同奠定了MLE在参数估计理论中的核心地位，也解释了为何绝大多数现代统计软件在默认情况下优先采用MLE进行参数估计。

计算方法与拓展

MLE的求解涉及优化问题，在简单模型中可解析求解（如正态分布均值的MLE即为样本均值），但在复杂模型中通常需要数值优化算法，其中Newton-Raphson方法和Fisher得分法 (Fisher Scoring) 最为经典。EM算法 (Expectation-Maximization Algorithm) 专为缺失数据或潜变量模型设计，通过迭代执行期望步（E步）和最大化步（M步）巧妙地将复杂优化问题分解为简单子问题，在高斯混合模型、隐马尔可夫模型等领域具有广泛应用。梯度下降法及其变体（如随机梯度下降）在大规模数据场景中日益普及。MLE的推广形式包括惩罚极大似然估计（引入正则化项控制模型复杂度，缓解过拟合）、拟极大似然估计 (QMLE，放宽分布假设仅需指定矩条件，增强稳健性）以及限制极大似然估计 (REML，在方差分量估计中修正MLE的小样本偏差）。

MLE在经济学中广泛应用于Logit与Probit模型、离散选择模型、持续时间模型及面板数据模型等领域。在金融领域，MLE用于GARCH模型、随机波动率模型和信用风险建模。在生物统计与流行病学中，MLE是Logistic回归和Cox比例风险模型的标准估计方法。机器学习中，交叉熵损失函数与MLE的等价关系揭示了分类问题与概率模型的内在联系。MLE的局限性包括：小样本下可能存在偏差（如方差分量估计中）、对模型设定高度敏感（错误分布假设会导致参数估计不一致乃至虚假推断）、在非正则情形（如参数边界处、支撑集依赖于参数时）渐近性质失效，以及在高维参数空间中面临"维数灾难"的挑战。尽管如此，极大似然估计量凭借其统一的理论框架、直观的哲学基础和出色的渐近性质，始终是统计推断科学体系中最核心的方法论工具之一，在现代数据分析中具有不可替代的地位。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。