# 随机变量函数的分布 (Distribution of a Function of a Random Variable)
在{{{概率论}}}和{{{统计学}}}中,一个核心问题是:如果我们已知一个或多个{{{随机变量}}}的{{{概率分布}}},那么由这些随机变量构成的函数的分布是什么?这个问题构成了许多统计推断理论的基石,例如推导{{{统计量}}}的抽样分布。
一个随机变量的函数本身也是一个随机变量。假设 $X$ 是一个随机变量,而 $g$ 是一个实值函数,那么 $Y = g(X)$ 就是一个新的随机变量。我们的目标是,在已知 $X$ 的分布(例如其{{{概率质量函数}}} (PMF) 或{{{概率密度函数}}} (PDF))的情况下,求出 $Y$ 的分布。
解决这个问题的方法主要取决于原始随机变量 $X$ 是离散的还是连续的。
## 离散随机变量的函数分布
当 $X$ 是一个{{{离散随机变量}}}时,其函数 $Y = g(X)$ 的分布求解相对直接。
假设 $X$ 的所有可能取值为 $x_1, x_2, \dots$ ,其对应的{{{概率质量函数}}} (PMF) 为 $p_X(x_i) = P(X = x_i)$。由于 $X$ 的取值是离散的,其函数 $Y = g(X)$ 的可能取值 $y_j = g(x_i)$ 也必然是一个可数集合,因此 $Y$ 也是一个离散随机变量。
为了求得 $Y$ 的 PMF $p_Y(y)$,我们需要找到所有使得 $g(X) = y$ 的 $X$ 的值,并将它们对应的概率相加。其计算公式为:
$$ p_Y(y) = P(Y = y) = P(g(X) = y) = \sum_{x_i: g(x_i)=y} P(X = x_i) = \sum_{x_i: g(x_i)=y} p_X(x_i) $$
示例:
假设随机变量 $X$ 的 PMF 如下: $$ P(X = -2) = 0.1, \quad P(X = -1) = 0.3, \quad P(X = 1) = 0.4, \quad P(X = 2) = 0.2 $$ 令 $Y = X^2$。我们来求 $Y$ 的 PMF。
1. 确定 $Y$ 的可能取值: $X$ 的取值为 $\{-2, -1, 1, 2\}$,因此 $Y = X^2$ 的可能取值是 $\{(-2)^2, (-1)^2, 1^2, 2^2\} = \{4, 1\}$。
2. 计算每个取值的概率: * 对于 $y=1$: $P(Y = 1) = P(X^2 = 1) = P(X = -1 \text{ or } X = 1)$。 由于事件 $\{X=-1\}$ 和 $\{X=1\}$ 是互斥的,我们可以直接将它们的概率相加: $P(Y = 1) = P(X = -1) + P(X = 1) = 0.3 + 0.4 = 0.7$。 * 对于 $y=4$: $P(Y = 4) = P(X^2 = 4) = P(X = -2 \text{ or } X = 2)$。 $P(Y = 4) = P(X = -2) + P(X = 2) = 0.1 + 0.2 = 0.3$。
3. 得到 $Y$ 的 PMF: $$ p_Y(1) = 0.7, \quad p_Y(4) = 0.3 $$ 我们可以验证所有概率之和为 $0.7 + 0.3 = 1$。
## 连续随机变量的函数分布
当 $X$ 是一个{{{连续随机变量}}}时,求解其函数 $Y=g(X)$ 的分布会更复杂。主要有两种常用方法:分布函数法和变量替换法。
### 方法一:分布函数法 (The CDF Method)
这是最基本、最通用的方法,适用于任何类型的函数 $g(x)$(包括非{{{单调函数}}})。其核心思想是先求出 $Y$ 的{{{累积分布函数}}} (CDF) $F_Y(y)$,然后通过对 CDF 求导得到其{{{概率密度函数}}} (PDF) $f_Y(y)$。
步骤如下: 1. 写出 $Y$ 的 CDF 定义:$F_Y(y) = P(Y \le y)$。 2. 用 $X$ 替换 $Y$:$F_Y(y) = P(g(X) \le y)$。 3. 解不等式:对不等式 $g(X) \le y$ 求解,将其转化为关于 $X$ 的一个或多个区间。这是此方法中最关键的一步。 4. 计算概率:利用 $X$ 的 CDF, $F_X(x)$, 或 PDF, $f_X(x)$, 计算上一步得到的关于 $X$ 的区间的概率。 5. 求导得到 PDF:对 $F_Y(y)$ 关于 $y$ 求导,得到 $Y$ 的 PDF:$f_Y(y) = \frac{d}{dy}F_Y(y)$。
示例:
假设 $X$ 服从参数为 $\lambda$ 的{{{指数分布}}} (Exponential Distribution),其 PDF 为 $f_X(x) = \lambda e^{-\lambda x}$ for $x > 0$。令 $Y = \sqrt{X}$,求 $Y$ 的分布。
1. $Y$ 的 CDF:$F_Y(y) = P(Y \le y)$。 首先确定 $Y$ 的取值范围。由于 $X > 0$,因此 $Y = \sqrt{X} > 0$。对于 $y \le 0$,$F_Y(y) = 0$。我们只考虑 $y > 0$ 的情况。
2. 用 $X$ 替换 $Y$:$F_Y(y) = P(\sqrt{X} \le y)$ for $y > 0$。
3. 解不等式:$\sqrt{X} \le y \implies 0 < X \le y^2$。
4. 计算概率: $$ F_Y(y) = P(0 < X \le y^2) = \int_0^{y^2} f_X(x) dx = \int_0^{y^2} \lambda e^{-\lambda x} dx $$ $$ F_Y(y) = [-e^{-\lambda x}]_0^{y^2} = -e^{-\lambda y^2} - (-e^0) = 1 - e^{-\lambda y^2} $$ 所以,$Y$ 的 CDF 为: $$ F_Y(y) = \begin{cases} 1 - e^{-\lambda y^2} & \text{if } y > 0 \\ 0 & \text{if } y \le 0 \end{cases} $$
5. 求导得到 PDF: 对于 $y > 0$, $$ f_Y(y) = \frac{d}{dy} (1 - e^{-\lambda y^2}) = -e^{-\lambda y^2} \cdot (-2\lambda y) = 2\lambda y e^{-\lambda y^2} $$ 因此, $Y$ 的 PDF 为: $$ f_Y(y) = \begin{cases} 2\lambda y e^{-\lambda y^2} & \text{if } y > 0 \\ 0 & \text{if } y \le 0 \end{cases} $$ 这被称为{{{瑞利分布}}} (Rayleigh distribution)。
### 方法二:变量替换法 (The Change of Variable Formula)
这是一种更直接的计算 PDF 的方法,但它要求函数 $y=g(x)$ 是严格单调的(严格递增或严格递减)并且可微。
假设 $y = g(x)$ 是一个严格单调函数,那么它存在唯一的反函数 $x = g^{-1}(y) = h(y)$。$Y$ 的 PDF 可以通过以下公式直接得到: $$ f_Y(y) = f_X(h(y)) \cdot \left| \frac{dh(y)}{dy} \right| $$ 这里的 $\left| \frac{dh(y)}{dy} \right|$ 是反函数导数的绝对值,它在多维情况下推广为{{{雅可比行列式}}} (Jacobian)的绝对值。这个因子是必需的,因为它保证了变换后总概率仍然积分为1。
当函数不是单调时: 如果 $g(x)$ 不是单调的,例如 $Y = X^2$,我们可以将 $X$ 的定义域划分为多个区间,使 $g(x)$ 在每个区间上都是单调的。然后,对每个区间应用变量替换法,并将结果相加。
若对于一个 $y$ 值,有 $k$ 个解 $x_1, x_2, \dots, x_k$ 使得 $g(x_i) = y$,那么 $Y$ 的 PDF 是每一部分贡献的总和: $$ f_Y(y) = \sum_{i=1}^k f_X(h_i(y)) \cdot \left| \frac{dh_i(y)}{dy} \right| $$ 其中 $x_i = h_i(y)$ 是第 $i$ 个反函数。
示例:
假设 $X$ 服从标准{{{正态分布}}} $N(0, 1)$,其 PDF 为 $f_X(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}$。令 $Y = X^2$,求 $Y$ 的分布。
1. 分析函数和反函数: 函数 $g(x) = x^2$ 不是单调的。对于任意 $y > 0$,有两个 $x$ 值与之对应:$x_1 = -\sqrt{y}$ (当 $x < 0$ 时) 和 $x_2 = \sqrt{y}$ (当 $x > 0$ 时)。 我们有两个反函数: * $x_1 = h_1(y) = -\sqrt{y}$,其导数为 $h_1'(y) = -\frac{1}{2\sqrt{y}}$。 * $x_2 = h_2(y) = \sqrt{y}$,其导数为 $h_2'(y) = \frac{1}{2\sqrt{y}}$。
2. 应用多对一公式: $$ f_Y(y) = f_X(h_1(y)) \cdot |h_1'(y)| + f_X(h_2(y)) \cdot |h_2'(y)| $$ 代入 $f_X(x)$ 的表达式: $$ f_Y(y) = \frac{1}{\sqrt{2\pi}} e^{-(-\sqrt{y})^2/2} \cdot \left|-\frac{1}{2\sqrt{y}}\right| + \frac{1}{\sqrt{2\pi}} e^{-(\sqrt{y})^2/2} \cdot \left|\frac{1}{2\sqrt{y}}\right| $$ 对于 $y > 0$: $$ f_Y(y) = \frac{1}{\sqrt{2\pi}} e^{-y/2} \cdot \frac{1}{2\sqrt{y}} + \frac{1}{\sqrt{2\pi}} e^{-y/2} \cdot \frac{1}{2\sqrt{y}} $$ $$ f_Y(y) = 2 \cdot \frac{1}{\sqrt{2\pi}} e^{-y/2} \cdot \frac{1}{2\sqrt{y}} = \frac{1}{\sqrt{2\pi y}} e^{-y/2} $$
3. 结论: $Y=X^2$ 的 PDF 为 $f_Y(y) = \frac{1}{\sqrt{2\pi y}} e^{-y/2}$ for $y > 0$。这正是{{{自由度}}}为1的{{{卡方分布}}} ($\chi^2(1)$) 的 PDF。这个结果在假设检验理论中至关重要。
## 推广与应用
随机变量函数的分布理论可以推广到多个随机变量的函数,例如 $Z = g(X_1, X_2, \dots, X_n)$。常见例子包括: * 和的分布:$Z = X_1 + X_2$。如果 $X_1$ 和 $X_2$ 独立,其分布可以通过{{{卷积}}} (Convolution)求得。 * 商的分布:$Z = X_1/X_2$。 * 样本均值的分布:$\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$。这是{{{中心极限定理}}}研究的核心对象。
在实践中,求解复杂函数的分布可能非常困难。在这种情况下,{{{矩生成函数}}} (MGF) 或{{{特征函数}}} (Characteristic Function) 提供了强大的替代工具。此外,{{{蒙特卡洛方法}}}也被广泛用于通过模拟来近似复杂函数的分布。
该理论在以下领域具有核心重要性: * 统计推断:推导 t-分布、F-分布和卡方分布等关键抽样分布。 * 金融工程:为衍生品定价,如果标的资产价格是一个随机变量,期权 payoff 就是该随机变量的函数。 * 物理与工程:分析由随机噪声或测量误差影响的系统输出。 * 计算机科学:在{{{逆变换采样}}}等算法中,通过对{{{均匀分布}}}的随机变量进行函数变换来生成服从特定分布的随机数。