知经 KNOWECON · 卓越的经济金融统计数学学习平台

柯西分布

# 柯西分布 (Cauchy Distribution)

柯西分布 (Cauchy Distribution),在物理学中也称为 洛伦兹分布 (Lorentzian Distribution) 或 布莱特-维格纳分布 (Breit-Wigner Distribution),是{{{概率论}}}和{{{统计学}}}中一种重要的连续型{{{概率分布}}}。它以法国数学家[[奥古斯丁-路易·柯西]]的名字命名。柯西分布在理论研究中尤为著名,因为它是一个不具有{{{期望值}}}(均值)、{{{方差}}}及更高阶{{{矩}}}的分布,这一特性使其成为检验统计方法稳健性的“试金石”。

标准的柯西分布是自由度为1的{{{学生t分布}}}(Student's t-distribution),记作 $t_1$。

## 核心特征:为何柯西分布与众不同

柯西分布最引人注目之处在于其“病态”或反直觉的性质,这使其在统计学教学中成为一个极佳的范例,用以说明并非所有“行为良好”的性质都适用于所有分布。

### 一、期望值(均值)未定义

对于绝大多数常见的概率分布,如{{{正态分布}}},我们都可以计算其{{{期望值}}}来描述其中心趋势。然而,柯西分布的期望值并不存在。

为了理解这一点,我们来看期望值的定义。对于一个具有{{{概率密度函数}}} (PDF) $f(x)$ 的连续随机变量 $X$,其期望值 $E[X]$ 定义为积分: $$ E[X] = \int_{-\infty}^{\infty} x f(x) \,dx $$ 对于一个标准的柯西分布(位置参数 $x_0=0$,尺度参数 $\gamma=1$),其PDF为 $f(x) = \frac{1}{\pi(1+x^2)}$。因此,其期望值为: $$ E[X] = \int_{-\infty}^{\infty} x \cdot \frac{1}{\pi(1+x^2)} \,dx = \frac{1}{\pi} \int_{-\infty}^{\infty} \frac{x}{1+x^2} \,dx $$ 这是一个{{{瑕积分}}}(Improper Integral)。要计算它,我们必须将其拆分为两个部分: $$ \int_{-\infty}^{\infty} \frac{x}{1+x^2} \,dx = \lim_{a \to -\infty} \int_{a}^{0} \frac{x}{1+x^2} \,dx + \lim_{b \to \infty} \int_{0}^{b} \frac{x}{1+x^2} \,dx $$ 计算积分得到: $$ \int \frac{x}{1+x^2} \,dx = \frac{1}{2} \ln(1+x^2) $$ 因此, $$ \lim_{b \to \infty} \left[ \frac{1}{2} \ln(1+x^2) \right]_0^b = \lim_{b \to \infty} \frac{1}{2} \ln(1+b^2) - 0 = \infty $$ $$ \lim_{a \to -\infty} \left[ \frac{1}{2} \ln(1+x^2) \right]_a^0 = 0 - \lim_{a \to -\infty} \frac{1}{2} \ln(1+a^2) = -\infty $$ 由于这两个极限都发散,整个积分的结果是 $\infty - \infty$ 的形式,这是数学上的未定式。因此,我们说这个积分不收敛,柯西分布的期望值是未定义的 (undefined)

尽管分布的图形是对称的,其中心位置由{{{中位数}}} (Median) 和{{{众数}}} (Mode) 描述,但不能用均值来描述。

### 二、方差及高阶矩未定义

由于{{{方差}}}的定义 $Var(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2$ 依赖于期望值 $E[X]$,所以当 $E[X]$ 未定义时,方差也自然是未定义的。即使我们去计算二阶原点矩 $E[X^2]$,也会发现其积分 $\int_{-\infty}^{\infty} x^2 f(x) \,dx$ 发散到无穷大。因此,柯西分布的所有正整数阶{{{矩}}}都是未定义的。

### 三、稳定分布特性与中心极限定理的失效

柯西分布属于{{{稳定分布}}}(Stable Distribution)家族。一个关键的推论是:$n$ 个独立的、服从同一柯西分布的随机变量的算术平均值,其分布仍然是同一个柯西分布

假设 $X_1, X_2, \dots, X_n$ 是独立同分布的随机变量,均服从位置参数为 $x_0$、尺度参数为 $\gamma$ 的柯西分布。它们的样本均值 $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ 依然服从参数为 $x_0$ 和 $\gamma$ 的柯西分布。

这个性质与我们熟知的{{{中心极限定理}}}(Central Limit Theorem)形成了鲜明对比。中心极限定理指出,对于一个具有有限均值和方差的分布,其样本均值的分布在样本量 $n$ 增大时会趋近于正态分布,且其方差会以 $1/n$ 的速率减小。而对于柯西分布,增加样本量并不能提高估计的精度,样本均值不会收敛到任何确定值。这说明了为什么{{{大数定律}}}在此处也不适用。

## 函数形式

柯西分布由两个参数定义:

* 位置参数 (Location Parameter) $x_0$:决定了分布的峰值位置。它是分布的{{{中位数}}}和{{{众数}}}。 * 尺度参数 (Scale Parameter) $\gamma$:必须为正数,$\gamma > 0$。它决定了分布的宽度,是半峰全宽 (Half-Width at Half-Maximum, HWHM),即概率密度为峰值一半时,横坐标与峰值位置 $x_0$ 的距离。

#### 概率密度函数 (PDF)

柯西分布的概率密度函数为: $$ f(x; x_0, \gamma) = \frac{1}{\pi\gamma \left[1 + \left(\frac{x-x_0}{\gamma}\right)^2\right]} = \frac{\gamma}{\pi((x-x_0)^2 + \gamma^2)} $$ 当 $x_0 = 0$ 和 $\gamma = 1$ 时,我们得到标准柯西分布 (Standard Cauchy Distribution): $$ f(x; 0, 1) = \frac{1}{\pi(1+x^2)} $$

#### 累积分布函数 (CDF)

柯西分布的{{{累积分布函数}}} (Cumulative Distribution Function) 是: $$ F(x; x_0, \gamma) = \frac{1}{\pi} \arctan\left(\frac{x-x_0}{\gamma}\right) + \frac{1}{2} $$ 其中 $\arctan$ 是反正切函数。

#### 特征函数 (Characteristic Function)

虽然矩不存在,但柯西分布的{{{特征函数}}}是良好定义的,这也是研究稳定分布的主要工具之一。其特征函数为: $$ \varphi_X(t) = E[e^{itX}] = e^{ix_0t - \gamma|t|} $$

## 模拟与生成

由于其CDF具有简单的反函数,我们可以很方便地使用{{{逆变换采样}}} (Inverse Transform Sampling) 方法来生成服从柯西分布的随机数。 如果 $U$ 是一个服从 $(0, 1)$ 区间上{{{均匀分布}}}的随机变量,则 $$ X = x_0 + \gamma \tan\left(\pi\left(U - \frac{1}{2}\right)\right) $$ 是一个服从参数为 $x_0$ 和 $\gamma$ 的柯西分布的随机变量。

## 应用与意义

1. {{{稳健统计学}}} (Robust Statistics):柯西分布的极端值(“{{{肥尾}}}”特性)使得依赖均值或方差的传统统计方法(如{{{最小二乘法}}})表现极差。因此,它常被用作一个基准,来测试新统计方法的稳健性,即在数据存在异常值或不符合正态假设时的表现。

2. 物理学:洛伦兹函数(即柯西分布的PDF形式)被广泛用于描述共振现象。例如,在原子和核物理中,不稳定的粒子或受激态的能量分布遵循布莱特-维格纳分布。在光谱学中,谱线的展宽(压力展宽)也常用洛伦兹线型来描述。

3. {{{金融建模}}}:金融资产回报率通常表现出比{{{正态分布}}}更厚的尾部(即极端事件发生的概率更高),这种现象被称为{{{肥尾}}} (Fat Tails)。虽然柯西分布的尾部比大多数金融数据所显示的还要“肥”(因为其方差无限),但它为思考和建模这种极端风险提供了一个理论上的极端案例。