知经 KNOWECON · 卓越的经济金融统计数学学习平台

连续概率分布

# 连续概率分布 (Continuous Probability Distribution)

连续概率分布 描述了一个 {{{连续随机变量}}} (Continuous Random Variable) 的概率。与 {{{离散概率分布}}} 不同,连续随机变量可以取某一区间内的任何值,例如身高、体重、时间或温度。由于在一个连续区间内存在无限多个可能的值,因此一个连续随机变量取到任何 单个精确值 的概率为零。例如,一个人的身高正好是 175.00000$...$ 厘米的概率是 0。

因此,对于连续概率分布,我们不讨论单点的概率,而是关注随机变量落在 一个区间内 的概率。这些概率是通过一个称为 {{{概率密度函数}}} (Probability Density Function, PDF) 的函数来计算的。

## 核心概念

### 1. 概率密度函数 (Probability Density Function, PDF)

概率密度函数,通常记为 $f(x)$,是描述连续概率分布的核心工具。它本身 不是概率 ,而是一个表示概率“密度”的函数。$f(x)$ 的值越高,表示随机变量在该点附近的取值可能性越大。PDF 必须满足以下两个条件:

一. 非负性:对于所有可能的 $x$ 值,函数值必须为非负数。 $$ f(x) \ge 0 $$

二. 总面积为1:函数曲线下方的总面积必须等于 1。这表示随机变量取其所有可能值之一的总概率为 1。 $$ \int_{-\infty}^{\infty} f(x) \,dx = 1 $$

使用 PDF,我们可以计算随机变量 $X$ 落在区间 $[a, b]$ 内的概率,即计算函数曲线在 $a$ 到 $b$ 之间的面积。这通过 {{{积分}}} 实现: $$ P(a \le X \le b) = \int_{a}^{b} f(x) \,dx $$

一个重要的推论是,由于单点的积分为零(即 $\int_{a}^{a} f(x) \,dx = 0$),所以对于任何连续随机变量,$P(X=a) = 0$。这也意味着: $$ P(a \le X \le b) = P(a < X < b) = P(a \le X < b) = P(a < X \le b) $$ 在计算连续分布的区间概率时,是否包含端点并不影响结果。

### 2. 累积分布函数 (Cumulative Distribution Function, CDF)

累积分布函数,通常记为 $F(x)$,给出了随机变量 $X$ 的值小于或等于某个特定值 $x$ 的概率。它直接定义为: $$ F(x) = P(X \le x) $$ 对于连续随机变量,CDF 是 PDF 从负无穷到 $x$ 的积分: $$ F(x) = \int_{-\infty}^{x} f(t) \,dt $$ 其中 $t$ 是一个虚拟的积分变量。

CDF 是一个非常有用的工具,它具有以下性质: 一. 范围:$0 \le F(x) \le 1$。 二. 非递减性:如果 $x_1 < x_2$,则 $F(x_1) \le F(x_2)$。 三. 极限:$\lim_{x \to -\infty} F(x) = 0$ 且 $\lim_{x \to \infty} F(x) = 1$。

通过 CDF,计算区间概率变得非常简单,无需每次都进行积分: $$ P(a < X \le b) = F(b) - F(a) $$

PDF 和 CDF 互为微积分运算:PDF 是 CDF 的导数。 $$ f(x) = \frac{dF(x)}{dx} $$

## 关键特征度量

与离散分布类似,我们可以使用一些关键的数值来概括连续概率分布的特征,如中心趋势和离散程度。

### 1. 期望值 (Expected Value)

{{{期望值}}}(或称 均值),记为 $E[X]$ 或 $\mu$,是分布的中心趋势度量,可以看作是随机变量所有可能值的加权平均,权重由 PDF 决定。其计算公式为: $$ E[X] = \mu = \int_{-\infty}^{\infty} x f(x) \,dx $$ 这个值可以被解释为分布的“质心”或长期观测的平均值。

### 2. 方差与标准差 (Variance and Standard Deviation)

{{{方差}}},记为 $Var(X)$ 或 $\sigma^2$,衡量了随机变量的取值围绕其均值的分散程度。方差越大,表示数据波动越大。其定义为: $$ Var(X) = \sigma^2 = E[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f(x) \,dx $$ 一个更方便计算的公式是: $$ Var(X) = E[X^2] - (E[X])^2 $$ 其中 $E[X^2] = \int_{-\infty}^{\infty} x^2 f(x) \,dx$。

{{{标准差}}},记为 $\sigma$,是方差的平方根 ($\sigma = \sqrt{Var(X)}$)。它的优点是与随机变量本身具有相同的单位,因此更易于解释。

### 3. 分位数 (Quantiles)

{{{分位数}}} 是描述分布位置的度量。第 $p$ 分位数($0 < p < 1$),记为 $x_p$,是这样一个值,它使得随机变量小于或等于它的概率为 $p$。使用 CDF 可以表示为: $$ F(x_p) = P(X \le x_p) = p $$ * {{{中位数}}} (Median):即第 0.5 分位数(或 50% 百分位数)。它是将分布的概率一分为二的点 $m$,满足 $F(m) = 0.5$。 * {{{四分位数}}} (Quartiles):包括第一四分位数($Q_1$,第25百分位数)和第三四分位数($Q_3$,第75百分位数)。

## 常见的连续概率分布

在{{{概率论}}}和{{{统计学}}}中,有几种连续分布因其理论重要性和广泛应用而尤为突出。

* {{{Uniform Distribution (Continuous)}}}:描述了在一个区间 $[a, b]$ 内所有结果的发生概率都相等的情况。它的 PDF 是一个常数。 * {{{Normal Distribution}}} (高斯分布):自然界和社科领域中最常见的分布,呈钟形对称曲线。由均值 $\mu$ 和标准差 $\sigma$ 唯一确定。根据{{{中心极限定理}}},大量独立随机变量之和近似服从正态分布。 * {{{Exponential Distribution}}}:通常用于模拟独立事件发生之间的时间间隔,例如客户到达服务台的间隔时间或电子元件的寿命。它具有“无记忆性”的独特属性。 * {{{Chi-squared Distribution}}} ($\chi^2$ 分布):在{{{假设检验}}}中至关重要,特别是用于拟合优度检验和{{{方差}}}分析。它由多个独立的标准正态分布的平方和构成。 * {{{Student's t-distribution}}} (t 分布):与正态分布相似但尾部更“厚”,用于在样本量较小且总体标准差未知时,对总体均值进行{{{推断统计}}}(如构建{{{置信区间}}}和进行 t 检验)。 * {{{F-distribution}}} (F 分布):主要用于比较两个总体的方差,是{{{方差分析}}} (ANOVA) 和回归分析中的核心分布。