知经 KNOWECON · 卓越的经济金融统计数学学习平台

二维连续型随机变量

# 二维连续型随机变量 (Two-dimensional Continuous Random Variable)

在{{{概率论}}}与{{{统计学}}}中,二维随机变量 (Two-dimensional Random Variable) 是对现实世界中两个同时变化的随机现象进行数学描述的工具。当我们同时关注两个指标时,例如一个人的身高和体重,或者一只股票的日收益率和交易量,我们就可以用一个向量 $(X, Y)$ 来表示,其中 $X$ 和 $Y$ 都是{{{随机变量}}}。

如果这两个随机变量 $X$ 和 $Y$ 都是{{{连续型随机变量}}},那么这个向量 $(X, Y)$ 就被称为二维连续型随机变量。与一维情况不同,我们不再讨论单个点的概率,而是研究该随机向量落在某个平面区域内的概率。

## 核心概念:联合概率密度函数 (Joint Probability Density Function)

描述二维连续型随机变量 $(X, Y)$ 概率特性的核心工具是其{{{联合概率密度函数}}} (Joint Probability Density Function, Joint PDF),记为 $f(x, y)$。它类似于一维PDF的推广,但其图形是一个定义在 $xy$ 平面上的曲面 $z = f(x, y)$。

联合概率密度函数 $f(x, y)$ 必须满足以下两个基本性质:

1. 非负性 (Non-negativity):对于任意的实数对 $(x, y)$,函数值必须是非负的。 $$ f(x, y) \ge 0 $$

2. 归一性 (Normalization):函数曲面与 $xy$ 平面所围成的体积必须等于1。这表示随机点 $(X, Y)$ 必然落在整个平面上的某个位置。 $$ \iint_{\mathbb{R}^2} f(x, y) \,dx\,dy = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) \,dx\,dy = 1 $$

使用联合PDF,我们可以计算随机点 $(X, Y)$ 落在平面上任意一个区域 $D$ 内的概率。该概率等于联合PDF在该区域 $D$ 上的{{{重积分}}} (Double Integral)。 $$ P((X, Y) \in D) = \iint_D f(x, y) \,dx\,dy $$ 一个重要的推论是,对于任何特定的点 $(x_0, y_0)$,其发生的概率为零,即 $P(X=x_0, Y=y_0) = 0$。这与所有连续型随机变量的性质一致。

## 边缘分布 (Marginal Distribution)

虽然我们研究的是二维随机变量 $(X, Y)$,但我们常常也关心其中单个变量(如 $X$ 或 $Y$)自身的概率分布。这种从联合分布中推导出的单个变量的分布被称为{{{边缘分布}}} (Marginal Distribution)。

其对应的{{{边缘概率密度函数}}} (Marginal PDF) 计算如下:

* $X$ 的边缘PDF $f_X(x)$:通过对联合PDF $f(x, y)$ 中的变量 $y$ 在其整个取值范围内进行积分(可以理解为“消除”或“积分掉”$y$ 的影响)得到。 $$ f_X(x) = \int_{-\infty}^{\infty} f(x, y) \,dy $$ 直观上,这是在三维概率密度曲面 $z = f(x, y)$ 上,沿着平行于 $y$ 轴的直线对密度进行“累加”,得到在特定 $x$ 值上的总密度。

* $Y$ 的边缘PDF $f_Y(y)$:同理,通过对 $x$ 进行积分得到。 $$ f_Y(y) = \int_{-\infty}^{\infty} f(x, y) \,dx $$

## 条件分布 (Conditional Distribution)

{{{条件分布}}} (Conditional Distribution) 描述了在已知一个随机变量取特定值的条件下,另一个随机变量的概率分布。这是理解变量间相互关系的关键。

{{{条件概率密度函数}}} (Conditional PDF) 的定义源于条件概率公式 $P(A|B) = P(AB)/P(B)$ 的推广:

* 给定 $X=x$ 时 $Y$ 的条件PDF: $$ f_{Y|X}(y|x) = \frac{f(x, y)}{f_X(x)}, \quad \text{其中 } f_X(x) > 0 $$ 它描述了当确定 $X$ 的值为 $x$ 后,$Y$ 的值在不同位置的相对可能性。对于一个固定的 $x$,$f_{Y|X}(y|x)$ 作为 $y$ 的函数,本身也是一个合法的PDF(即 $\int_{-\infty}^{\infty} f_{Y|X}(y|x) \,dy = 1$)。

* 给定 $Y=y$ 时 $X$ 的条件PDF: $$ f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)}, \quad \text{其中 } f_Y(y) > 0 $$

## 随机变量的独立性 (Independence of Random Variables)

{{{统计独立性}}} (Statistical Independence) 是一个至关重要的概念。如果两个随机变量 $X$ 和 $Y$ 是独立的,意味着一个变量的取值信息不会影响另一个变量的概率分布。

对于二维连续型随机变量,独立性可以通过以下等价方式判断:

1. 联合PDF等于边缘PDF的乘积:对于所有的 $(x, y)$,下式均成立。 $$ f(x, y) = f_X(x) f_Y(y) $$ 这是判断独立性最常用和最直接的方法。

2. 条件PDF等于边缘PDF: $$ f_{Y|X}(y|x) = f_Y(y) \quad \text{或} \quad f_{X|Y}(x|y) = f_X(x) $$ 这直观地表明,即使已知一个变量的取值,另一个变量的分布依然是其原始的边缘分布,未受任何影响。

## 数学期望、协方差与相关系数

与一维随机变量类似,我们可以定义二维随机变量的各种数字特征。

* {{{期望值}}} (Expected Value):对于一个关于 $(X, Y)$ 的函数 $g(X, Y)$,其期望值的计算公式为: $$ E[g(X, Y)] = \iint_{\mathbb{R}^2} g(x, y) f(x, y) \,dx\,dy $$ 特别地,$X$ 和 $Y$ 的期望值可以通过其边缘分布计算,也可以通过联合分布计算: $$ E[X] = \int_{-\infty}^{\infty} x f_X(x) \,dx = \iint_{\mathbb{R}^2} x f(x, y) \,dx\,dy $$ $$ E[Y] = \int_{-\infty}^{\infty} y f_Y(y) \,dy = \iint_{\mathbb{R}^2} y f(x, y) \,dx\,dy $$

* {{{协方差}}} (Covariance):协方差衡量了两个变量线性关系的强度和方向。 $$ \text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] $$ 其中 $E[XY] = \iint_{\mathbb{R}^2} xy f(x, y) \,dx\,dy$。 - 如果 $\text{Cov}(X, Y) > 0$,表示 $X$ 和 $Y$ 倾向于同向变化(一个变大,另一个也倾向于变大)。 - 如果 $\text{Cov}(X, Y) < 0$,表示 $X$ 和 $Y$ 倾向于反向变化。 - 如果 $X$ 和 $Y$ 独立,那么 $\text{Cov}(X, Y) = 0$。但反之不成立,零协方差不一定意味着独立,它仅表示没有线性关系。

* {{{相关系数}}} (Correlation Coefficient):协方差的大小受变量尺度的影响。为了得到一个标准化的度量,我们使用相关系数 $\rho$。 $$ \rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} $$ 其中 $\sigma_X$ 和 $\sigma_Y$ 分别是 $X$ 和 $Y$ 的{{{标准差}}}。 - 相关系数的取值范围是 $[-1, 1]$。 - $\rho=1$ 表示完全正线性相关;$\rho=-1$ 表示完全负线性相关;$\rho=0$ 表示无线性相关。

## 应用实例:二维均匀分布

假设随机变量 $(X, Y)$ 在由 $x \ge 0, y \ge 0, x+y \le 2$ 所定义的三角形区域 $D$ 上服从{{{均匀分布}}}。这意味着其PDF在该区域内为常数,区域外为0。

1. 确定联合PDF $f(x, y)$: 首先计算区域 $D$ 的面积 $A_D = \frac{1}{2} \times \text{底} \times \text{高} = \frac{1}{2} \times 2 \times 2 = 2$。 由于 $\iint_D f(x,y) \,dx\,dy = 1$,且 $f(x,y) = C$ 为常数,所以 $C \times A_D = 1$,得出 $C = 1/2$。 因此,联合PDF为: $$ f(x, y) = \begin{cases} 1/2 & \text{if } x \ge 0, y \ge 0, x+y \le 2 \\ 0 & \text{otherwise} \end{cases} $$

2. 计算边缘PDF $f_X(x)$: 对于一个给定的 $x \in [0, 2]$, $y$ 的取值范围是 $0 \le y \le 2-x$。 $$ f_X(x) = \int_0^{2-x} \frac{1}{2} \,dy = \frac{1}{2} [y]_0^{2-x} = \frac{2-x}{2} = 1 - \frac{x}{2}, \quad \text{for } 0 \le x \le 2 $$ 在其他 $x$ 的取值上,$f_X(x)=0$。

3. 判断独立性: 同理可得 $f_Y(y) = 1 - \frac{y}{2}$ for $0 \le y \le 2$。 我们看到 $f_X(x) f_Y(y) = (1 - x/2)(1 - y/2) \neq 1/2 = f(x, y)$。 因此,$X$ 和 $Y$ 不独立。这是符合直觉的:例如,如果已知 $X$ 取了较大的值(如 $X=1.9$),那么 $Y$ 的取值范围就会被限制在一个很小的区间内,这表明 $X$ 的值影响了 $Y$ 的分布。

4. 计算条件PDF $f_{Y|X}(y|x)$: 对于 $x \in (0, 2)$,我们有: $$ f_{Y|X}(y|x) = \frac{f(x, y)}{f_X(x)} = \frac{1/2}{1 - x/2} = \frac{1}{2-x}, \quad \text{for } 0 \le y \le 2-x $$ 这表明,当给定 $X=x$ 时,$Y$ 在区间 $[0, 2-x]$ 上服从均匀分布。