词条：似然函数 · 卓越的经济金融统计考研辅导

# 似然函数 (Likelihood Function)

似然函数 (Likelihood Function) 是{{{统计推断}}}中一个最核心的概念，尤其是在{{{参数估计}}}领域。它提供了一种量化模型参数相对合理性的方法。给定一组已观测到的数据，似然函数描述了在不同的参数值下，观测到这组数据的“可能性”或“似然程度”(Likelihood)。

简单来说，似然函数回答了这样一个问题：“对于我们手中已有的数据，哪一个参数值能够最好地解释或生成这些数据？”

## 核心定义与符号

假设我们有一个{{{随机变量}}} $X$，其{{{概率分布}}}由一组未知的参数 $\theta$ 决定。这个概率分布可以用{{{概率密度函数}}} (Probability Density Function, PDF) 或{{{概率质量函数}}} (Probability Mass Function, PMF) $f(x | \theta)$ 来表示。

* 当我们将 $\theta$ 视为一个已知的、固定的常数，而 $x$ 是一个变量时，$f(x | \theta)$ 表示在给定参数 $\theta$ 的情况下，随机变量 $X$ 取值为 $x$ 的概率（对于离散变量）或概率密度（对于连续变量）。

* 当我们反过来，将已观测到的数据 $x$ 视为固定的，而将参数 $\theta$ 视为变量时，这个函数就被称为似然函数，记作 $L(\theta | x)$。

因此，似然函数的数学形式与原先的概率函数完全相同，但其解释和关注点发生了根本性的转变：

$$ L(\theta | x) = f(x | \theta) $$

其中： * $L(\theta | x)$ 是似然函数，表示在观测数据为 $x$ 的条件下，参数为 $\theta$ 的似然值。 * $f(x | \theta)$ 是以 $\theta$为参数的 $X$ 的概率分布函数。 * $x$ 是已经观测到的特定数据点或数据集。 * $\theta$ 是模型的未知参数（可能是一个标量，也可能是一个向量）。

对于一个由 $n$ 个{{{独立同分布}}} (independent and identically distributed, i.i.d.) 的观测值组成的数据集 $x_1, x_2, \dots, x_n$，其联合概率函数为各个观测值概率的乘积。因此，似然函数为：

$$ L(\theta | x_1, \dots, x_n) = \prod_{i=1}^{n} f(x_i | \theta) $$

## 似然与概率的关键区别

初学者常常将“似然”与“概率”混淆。理解它们的区别至关重要。

例如，说参数 $\theta_A$ 的似然值是参数 $\theta_B$ 的两倍，即 $L(\theta_A | x) = 2 \cdot L(\theta_B | x)$，意味着在观测到数据 $x$ 的情况下，$\theta_A$ 是一个比 $\theta_B$ “好两倍”的参数解释。但这并不意味着 $\theta_A$ 的概率是 $\theta_B$ 的两倍。

## 简单的例子：抛硬币

假设我们有一枚质地不均匀的硬币，其抛出正面的概率为 $p$，这是一个未知的参数 ($\theta = p$)。我们进行了 10 次独立试验，观测到的序列是：正、反、正、正、反、正、正、正、反、正 (7次正面，3次反面)。

我们的目标是根据这个观测结果来推断 $p$ 的值。

1. 构建似然函数：每一次抛掷都是一个{{{伯努利试验}}}。观测到“正面”的概率是 $p$，观测到“反面”的概率是 $1-p$。由于每次试验是独立的，观测到上述特定序列的联合概率为： $$ P(\text{数据} | p) = p \cdot (1-p) \cdot p \cdot p \cdot (1-p) \cdot p \cdot p \cdot p \cdot (1-p) \cdot p $$ 整理后得到： $$ P(\text{数据} | p) = p^7 (1-p)^3 $$ 将这个表达式看作是参数 $p$ 的函数，我们就得到了似然函数： $$ L(p | \text{数据}) = p^7 (1-p)^3 $$ 这里的 $p$ 是一个介于 $[0, 1]$ 之间的变量。

2. 比较不同参数的似然值： * 如果我们猜测 $p = 0.5$（一枚均匀的硬币），似然值为 $L(0.5 | \text{数据}) = (0.5)^7 (0.5)^3 = (0.5)^{10} \approx 0.000977$。 * 如果我们猜测 $p = 0.7$（一个更符合直觉的值，因为10次里有7次正面），似然值为 $L(0.7 | \text{数据}) = (0.7)^7 (0.3)^3 \approx 0.08235 \times 0.027 \approx 0.00222$。 * 如果我们猜测 $p = 0.9$，似然值为 $L(0.9 | \text{数据}) = (0.9)^7 (0.1)^3 \approx 0.4783 \times 0.001 \approx 0.000478$。

比较可知，$L(0.7 | \text{数据}) > L(0.5 | \text{数据}) > L(0.9 | \text{数据})$。这表明，参数 $p=0.7$ 相比于 $p=0.5$ 或 $p=0.9$，能够更好地解释我们观测到的数据。

## 对数似然函数 (Log-Likelihood Function)

在实际应用中，直接处理似然函数 $L(\theta)$ 通常很困难。因为它是多个概率的乘积，当样本量 $n$ 很大时，这个乘积会变得非常小，可能导致计算机计算中的{{{数值下溢}}} (numerical underflow) 问题。

为了解决这个问题，我们通常使用对数似然函数，记作 $\ell(\theta | x)$ 或 $\log L(\theta | x)$：

$$ \ell(\theta | x) = \ln(L(\theta | x)) $$

对于 i.i.d. 样本，对数似然函数将乘积变成了求和： $$ \ell(\theta | x_1, \dots, x_n) = \ln \left( \prod_{i=1}^{n} f(x_i | \theta) \right) = \sum_{i=1}^{n} \ln(f(x_i | \theta)) $$ 使用对数似然函数有三大好处： 1. 简化计算：将复杂的乘积运算转化为简单的加法运算，求导也变得更加容易。 2. 数值稳定性：避免了极小数值的连乘，使得计算机能够更精确地处理。 3. 保持极值点不变：自然对数函数 $\ln(x)$ 是一个严格的{{{单调递增函数}}}。因此，能使 $L(\theta)$ 最大化的 $\theta$ 值，也同样能使 $\ell(\theta)$ 最大化。

## 主要应用：最大似然估计

似然函数最主要的应用是{{{最大似然估计}}} (Maximum Likelihood Estimation, MLE)。这是一种非常流行和强大的{{{点估计}}}方法。

MLE 的核心思想非常直观：选择一个参数值 $\hat{\theta}_{MLE}$，使得我们观测到的数据出现的似然值最大。换句话说，找到那个“最能解释”数据的参数。

其数学表述为： $$ \hat{\theta}_{MLE} = \underset{\theta}{\arg\max} \, L(\theta | x) = \underset{\theta}{\arg\max} \, \ell(\theta | x) $$ `arg max` 表示“使函数取得最大值的参数值”。

回到抛硬币的例子，我们要找到使 $\ell(p) = \ln(p^7(1-p)^3) = 7\ln(p) + 3\ln(1-p)$ 最大化的 $p$ 值。通过{{{微积分}}}，我们对 $\ell(p)$ 求关于 $p$ 的导数，并令其为0： $$ \frac{d\ell}{dp} = \frac{7}{p} - \frac{3}{1-p} = 0 $$ 解这个方程： $$ \frac{7}{p} = \frac{3}{1-p} \implies 7(1-p) = 3p \implies 7 - 7p = 3p \implies 10p = 7 \implies p = 0.7 $$ 因此，最大似然估计值是 $\hat{p}_{MLE} = 0.7$，这与我们的直觉“10次中有7次正面”完全吻合。

## 在更广阔领域的关联

* {{{贝叶斯统计}}}：在{{{贝叶斯推断}}}中，似然函数是连接先验分布和后验分布的桥梁。根据{{{贝叶斯定理}}}，参数的后验分布正比于其先验分布与似然函数的乘积： $P(\theta | x) \propto L(x | \theta) \times P(\theta)$ * {{{信息论}}}：似然函数的曲率与{{{费雪信息}}} (Fisher Information) 密切相关，后者衡量了数据中包含的关于未知参数的信息量。 * {{{计量经济学}}}：在许多非线性模型如{{{Logit模型}}}和{{{Probit模型}}}中，MLE 是主要的参数估计方法。