# 连续型随机变量 (Continuous Random Variable)
在{{{概率论}}}和{{{统计学}}}中,连续型随机变量是指其可能取值的集合是一个不可数集合(通常是一个或多个区间)的{{{随机变量}}}。与{{{离散型随机变量}}}可以在其取值范围内列举出每一个可能的值不同,连续型随机变量可以在一个给定的范围内取任意值。
例如,一个成年人的身高、从家到公司所需的时间、室外的温度或者一枚股票的日收益率,这些都是连续型随机变量的典型例子。我们无法列举出1.75米和1.76米之间所有可能的身高,因为理论上存在无限多个可能的值。
## 核心概念
连续型随机变量的核心特征在于其取值的“连续性”和“无限性”。理解这一概念需要借助{{{微积分}}}的工具,特别是{{{积分}}}和{{{导数}}}。我们不讨论该变量取某个具体值的概率,而是讨论其取值落在某个区间内的概率。
一个非常重要的、有时也违反直觉的特性是:对于任何一个连续型随机变量 $X$,它取任何单个特定值 $c$ 的概率都为零。即: $$ P(X = c) = 0 $$ 这似乎很奇怪,但可以通过以下方式理解:在一个连续的区间(例如 $[0, 1]$)内有无限多个点。如果每个点都有一个大于零的概率,那么所有这些无穷多个点的概率之和将会是无穷大,这与概率总和必须为1的公理相矛盾。因此,我们只能为“区间”赋予非零的概率。这也意味着,对于连续型随机变量,$P(a \le X \le b)$ 和 $P(a < X < b)$ 是相等的。
## 概率密度函数 (Probability Density Function, PDF)
由于单个点的概率为零,我们引入{{{概率密度函数}}}(PDF),记为 $f(x)$,来描述连续型随机变量的概率分布。PDF本身不是概率,但它反映了变量在某一点附近取值的“相对可能性”或“密度”。
一个合法的PDF $f(x)$ 必须满足以下两个条件: 1. 非负性:对于所有可能的 $x$,$f(x) \ge 0$。 2. 归一性:其在整个实数轴上的{{{积分}}}必须等于1。 $$ \int_{-\infty}^{\infty} f(x) \,dx = 1 $$ 这表示随机变量必然会取某个值,总概率为1。
使用PDF,我们可以计算随机变量 $X$ 落在区间 $[a, b]$ 内的概率,这个概率等于PDF曲线在 $[a, b]$ 区间下方的面积。 $$ P(a \le X \le b) = \int_{a}^{b} f(x) \,dx $$
## 累积分布函数 (Cumulative Distribution Function, CDF)
对于连续型随机变量,我们同样可以定义{{{累积分布函数}}}(CDF),记为 $F(x)$。它的定义与离散型随机变量相同,即随机变量 $X$ 的值小于或等于 $x$ 的概率。 $$ F(x) = P(X \le x) $$ CDF是通过对PDF进行积分得到的: $$ F(x) = \int_{-\infty}^{x} f(t) \,dt $$ 相应地,PDF是CDF的{{{导数}}}(在CDF可导的地方): $$ f(x) = \frac{dF(x)}{dx} $$
CDF具有以下重要性质: * 它是一个非减函数,即如果 $x_1 < x_2$,则 $F(x_1) \le F(x_2)$。 * 其取值范围在 $[0, 1]$ 之间。 * $\lim_{x \to -\infty} F(x) = 0$ 且 $\lim_{x \to \infty} F(x) = 1$。 * 对于连续型随机变量,CDF是连续的函数。
使用CDF可以方便地计算区间概率: $$ P(a < X \le b) = F(b) - F(a) $$
## 重要数字特征
### 1. 期望 (Expected Value)
{{{期望}}}(或均值),记为 $E[X]$ 或 $\mu$,是随机变量所有可能取值的加权平均,权重由PDF给出。它代表了随机变量的中心趋势或长期平均值。 $$ E[X] = \mu = \int_{-\infty}^{\infty} x f(x) \,dx $$
### 2. 方差 (Variance) 与 标准差 (Standard Deviation)
{{{方差}}},记为 $\text{Var}(X)$ 或 $\sigma^2$,衡量了随机变量取值的分散程度或波动性,即其值偏离均值的平均平方距离。 $$ \text{Var}(X) = \sigma^2 = E[(X-\mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x) \,dx $$ 一个更方便计算的公式是: $$ \text{Var}(X) = E[X^2] - (E[X])^2 $$ 其中,$E[X^2] = \int_{-\infty}^{\infty} x^2 f(x) \,dx$。
{{{标准差}}},记为 $\sigma$,是方差的平方根,$\sigma = \sqrt{\text{Var}(X)}$。标准差的单位与随机变量本身的单位相同,因此在解释上更为直观。
## 常见的连续概率分布
* {{{均匀分布}}} (Uniform Distribution):在区间 $[a, b]$ 上的所有结果都是等可能的。其PDF在 $[a, b]$ 上是一个常数。 * {{{正态分布}}} (Normal Distribution):也称高斯分布,是自然界和科学研究中最常见的分布,其PDF呈钟形曲线。根据{{{中心极限定理}}},大量独立随机变量之和近似服从正态分布。 * {{{指数分布}}} (Exponential Distribution):描述了在{{{泊松过程}}}中,独立事件发生之间的时间间隔。它具有“无记忆性”的特点。 * {{{卡方分布}}} (Chi-Squared Distribution):由多个独立标准正态分布变量的平方和构成,在{{{假设检验}}}中(如拟合优度检验和独立性检验)有广泛应用。
## 与离散型随机变量的对比
| 特征 | 离散型随机变量 (Discrete Random Variable) | 连续型随机变量 (Continuous Random Variable) |
| --- | --- | --- |
| 可能取值 | 可数个(有限或可数无限) | 区间内的不可数个 |
| 概率函数 | {{{概率质量函数}}} (PMF), $p(x) = P(X=x)$ | {{{概率密度函数}}} (PDF), $f(x)$ |
| 单点概率 | $P(X=x) \ge 0$ | $P(X=x) = 0$ |
| 区间概率 | $P(a \le X \le b)$ 通过求和 $\sum$ 计算 | $P(a \le X \le b)$ 通过积分 $\int$ 计算 |
| 不等号 | $P(X