# 似然函数 (Likelihood Function)
似然函数 (Likelihood Function) 是{{{统计推断}}}中一个最核心的概念,尤其是在{{{参数估计}}}领域。它提供了一种量化模型参数相对合理性的方法。给定一组已观测到的数据,似然函数描述了在不同的参数值下,观测到这组数据的“可能性”或“似然程度”(Likelihood)。
简单来说,似然函数回答了这样一个问题:“对于我们手中已有的数据,哪一个参数值能够最好地解释或生成这些数据?”
## 核心定义与符号
假设我们有一个{{{随机变量}}} $X$,其{{{概率分布}}}由一组未知的参数 $\theta$ 决定。这个概率分布可以用{{{概率密度函数}}} (Probability Density Function, PDF) 或{{{概率质量函数}}} (Probability Mass Function, PMF) $f(x | \theta)$ 来表示。
* 当我们将 $\theta$ 视为一个已知的、固定的常数,而 $x$ 是一个变量时,$f(x | \theta)$ 表示在给定参数 $\theta$ 的情况下,随机变量 $X$ 取值为 $x$ 的概率(对于离散变量)或概率密度(对于连续变量)。
* 当我们反过来,将已观测到的数据 $x$ 视为固定的,而将参数 $\theta$ 视为变量时,这个函数就被称为似然函数,记作 $L(\theta | x)$。
因此,似然函数的数学形式与原先的概率函数完全相同,但其解释和关注点发生了根本性的转变:
$$ L(\theta | x) = f(x | \theta) $$
其中: * $L(\theta | x)$ 是似然函数,表示在观测数据为 $x$ 的条件下,参数为 $\theta$ 的似然值。 * $f(x | \theta)$ 是以 $\theta$为参数的 $X$ 的概率分布函数。 * $x$ 是已经观测到的特定数据点或数据集。 * $\theta$ 是模型的未知参数(可能是一个标量,也可能是一个向量)。
对于一个由 $n$ 个{{{独立同分布}}} (independent and identically distributed, i.i.d.) 的观测值组成的数据集 $x_1, x_2, \dots, x_n$,其联合概率函数为各个观测值概率的乘积。因此,似然函数为:
$$ L(\theta | x_1, \dots, x_n) = \prod_{i=1}^{n} f(x_i | \theta) $$
## 似然与概率的关键区别
初学者常常将“似然”与“概率”混淆。理解它们的区别至关重要。
| 特征 | 概率 (Probability) | 似然 (Likelihood) | | :--- | :--- | :--- | | 关注点 | 关注数据 ($x$) 的不确定性。 | 关注参数 ($\theta$) 的不确定性。 | | 前提条件 | 参数 $\theta$ 是固定的、已知的。 | 数据 $x$ 是固定的、已观测到的。 | | 所问问题 | "如果真实参数是 $\theta$,我们观测到数据 $x$ 的机会有多大?" | "既然我们已经观测到了数据 $x$,那么真实参数是 $\theta$ 的可能性有多大?" | | 数学性质 | 所有可能的数据 $x$ 的概率之和(或积分)等于 1。 | 所有可能的参数 $\theta$ 的似然值之和(或积分)不一定等于 1。 | | 解释 | 衡量未来事件发生的机会。 | 衡量一个已发生的事件对不同假设(参数值)的支持程度。它是一个相对值。 |
例如,说参数 $\theta_A$ 的似然值是参数 $\theta_B$ 的两倍,即 $L(\theta_A | x) = 2 \cdot L(\theta_B | x)$,意味着在观测到数据 $x$ 的情况下,$\theta_A$ 是一个比 $\theta_B$ “好两倍”的参数解释。但这并不意味着 $\theta_A$ 的概率是 $\theta_B$ 的两倍。
## 简单的例子:抛硬币
假设我们有一枚质地不均匀的硬币,其抛出正面的概率为 $p$,这是一个未知的参数 ($\theta = p$)。我们进行了 10 次独立试验,观测到的序列是:正、反、正、正、反、正、正、正、反、正 (7次正面,3次反面)。
我们的目标是根据这个观测结果来推断 $p$ 的值。
1. 构建似然函数: 每一次抛掷都是一个{{{伯努利试验}}}。观测到“正面”的概率是 $p$,观测到“反面”的概率是 $1-p$。由于每次试验是独立的,观测到上述特定序列的联合概率为: $$ P(\text{数据} | p) = p \cdot (1-p) \cdot p \cdot p \cdot (1-p) \cdot p \cdot p \cdot p \cdot (1-p) \cdot p $$ 整理后得到: $$ P(\text{数据} | p) = p^7 (1-p)^3 $$ 将这个表达式看作是参数 $p$ 的函数,我们就得到了似然函数: $$ L(p | \text{数据}) = p^7 (1-p)^3 $$ 这里的 $p$ 是一个介于 $[0, 1]$ 之间的变量。
2. 比较不同参数的似然值: * 如果我们猜测 $p = 0.5$(一枚均匀的硬币),似然值为 $L(0.5 | \text{数据}) = (0.5)^7 (0.5)^3 = (0.5)^{10} \approx 0.000977$。 * 如果我们猜测 $p = 0.7$(一个更符合直觉的值,因为10次里有7次正面),似然值为 $L(0.7 | \text{数据}) = (0.7)^7 (0.3)^3 \approx 0.08235 \times 0.027 \approx 0.00222$。 * 如果我们猜测 $p = 0.9$,似然值为 $L(0.9 | \text{数据}) = (0.9)^7 (0.1)^3 \approx 0.4783 \times 0.001 \approx 0.000478$。
比较可知,$L(0.7 | \text{数据}) > L(0.5 | \text{数据}) > L(0.9 | \text{数据})$。这表明,参数 $p=0.7$ 相比于 $p=0.5$ 或 $p=0.9$,能够更好地解释我们观测到的数据。
## 对数似然函数 (Log-Likelihood Function)
在实际应用中,直接处理似然函数 $L(\theta)$ 通常很困难。因为它是多个概率的乘积,当样本量 $n$ 很大时,这个乘积会变得非常小,可能导致计算机计算中的{{{数值下溢}}} (numerical underflow) 问题。
为了解决这个问题,我们通常使用对数似然函数,记作 $\ell(\theta | x)$ 或 $\log L(\theta | x)$:
$$ \ell(\theta | x) = \ln(L(\theta | x)) $$
对于 i.i.d. 样本,对数似然函数将乘积变成了求和: $$ \ell(\theta | x_1, \dots, x_n) = \ln \left( \prod_{i=1}^{n} f(x_i | \theta) \right) = \sum_{i=1}^{n} \ln(f(x_i | \theta)) $$ 使用对数似然函数有三大好处: 1. 简化计算:将复杂的乘积运算转化为简单的加法运算,求导也变得更加容易。 2. 数值稳定性:避免了极小数值的连乘,使得计算机能够更精确地处理。 3. 保持极值点不变:自然对数函数 $\ln(x)$ 是一个严格的{{{单调递增函数}}}。因此,能使 $L(\theta)$ 最大化的 $\theta$ 值,也同样能使 $\ell(\theta)$ 最大化。
## 主要应用:最大似然估计
似然函数最主要的应用是{{{最大似然估计}}} (Maximum Likelihood Estimation, MLE)。这是一种非常流行和强大的{{{点估计}}}方法。
MLE 的核心思想非常直观:选择一个参数值 $\hat{\theta}_{MLE}$,使得我们观测到的数据出现的似然值最大。换句话说,找到那个“最能解释”数据的参数。
其数学表述为: $$ \hat{\theta}_{MLE} = \underset{\theta}{\arg\max} \, L(\theta | x) = \underset{\theta}{\arg\max} \, \ell(\theta | x) $$ `arg max` 表示“使函数取得最大值的参数值”。
回到抛硬币的例子,我们要找到使 $\ell(p) = \ln(p^7(1-p)^3) = 7\ln(p) + 3\ln(1-p)$ 最大化的 $p$ 值。 通过{{{微积分}}},我们对 $\ell(p)$ 求关于 $p$ 的导数,并令其为0: $$ \frac{d\ell}{dp} = \frac{7}{p} - \frac{3}{1-p} = 0 $$ 解这个方程: $$ \frac{7}{p} = \frac{3}{1-p} \implies 7(1-p) = 3p \implies 7 - 7p = 3p \implies 10p = 7 \implies p = 0.7 $$ 因此,最大似然估计值是 $\hat{p}_{MLE} = 0.7$,这与我们的直觉“10次中有7次正面”完全吻合。
## 在更广阔领域的关联
* {{{贝叶斯统计}}}:在{{{贝叶斯推断}}}中,似然函数是连接先验分布和后验分布的桥梁。根据{{{贝叶斯定理}}},参数的后验分布正比于其先验分布与似然函数的乘积: $P(\theta | x) \propto L(x | \theta) \times P(\theta)$ * {{{信息论}}}:似然函数的曲率与{{{费雪信息}}} (Fisher Information) 密切相关,后者衡量了数据中包含的关于未知参数的信息量。 * {{{计量经济学}}}:在许多非线性模型如{{{Logit模型}}}和{{{Probit模型}}}中,MLE 是主要的参数估计方法。