ARTICLE

概率密度函数

概率密度函数 (Probability Density Function) 概率密度函数(Probability Density Function, 简称 PDF)是概率论和统计学中用于描述连续随机变量在所有可能取值范围内相对可能性的核心数学工具。与描述离散随机变量的概率质量函数(PMF)不同,PDF 本身的值并非概率,而是反映随机变量在该点附近的密度程度。

浏览 75 更新 2026-07-15

概率密度函数 (Probability Density Function)

概率密度函数(Probability Density Function, 简称 PDF)是概率论统计学中用于描述连续随机变量在所有可能取值范围内相对可能性的核心数学工具。与描述离散随机变量概率质量函数(PMF)不同,PDF 本身的值并非概率,而是反映随机变量在该点附近的密度程度。这一概念是理解连续型概率分布、参数与非参数推断统计以及计量经济学建模的基础。

定义与核心公理

X X 为一连续随机变量,其概率密度函数记为 fX(x) f_X(x) 。该函数须满足以下两条基本公理:

  1. 非负性(Non-negativity):对定义域内所有 x x ,有 fX(x)0 f_X(x) \ge 0 。这一条件确保概率密度不可能为负,是概率公理体系的基本要求。
  2. 归一性(Normalization):PDF 在整个实数轴上的积分必须等于 1,即 fX(x)dx=1 \displaystyle\int_{-\infty}^{\infty} f_X(x)\,dx = 1 。这表示随机变量取任意值的总概率为 1,曲线与横轴围成的总面积为 1。

上述两条性质是判断一个函数能否成为合法 PDF 的充分必要条件。任何违反非负性或归一性的函数都不能用于描述概率分布。

PDF 值的含义:密度而非概率

初学者最易犯的错误是将 f(a) f(a) 直接理解为 P(X=a) P(X=a) 。然而,对于连续随机变量,取任一特定值的概率恒为零,即 P(X=a)=0 P(X=a)=0 。原因在于连续变量的取值空间不可数,精确命中某一点的测度为零测集。那么 PDF 的意义何在?正确理解是:f(a) f(a) 表示概率在该点的密度。变量落入极小区间 [a,a+dx] [a, a+dx] 的概率近似为 f(a)dx f(a)\cdot dx ,其中 dx dx 为无穷小长度。换言之,PDF 是概率的分布密度,而非概率本身——这与物理中质量密度的概念类似:某点的密度值本身不直接给出质量,必须乘以体积才有意义。在直方图中,当组距趋于零时,频率直方图的轮廓趋近于 PDF 曲线,这一视角有助于直观理解 PDF 作为密度函数的含义。

概率计算:面积即概率

由于 PDF 本身不是概率,实际概率必须通过曲线下的面积求得。连续随机变量 X X 落入区间 [a,b] [a, b] 的概率等于 PDF 在该区间上的定积分:

P(aXb)=abfX(x)dxP(a \le X \le b) = \int_a^b f_X(x)\,dx

由于 P(X=a)=0 P(X=a)=0 P(X=b)=0 P(X=b)=0 ,区间端点的开闭不影响概率值。因此以下四种表述完全等价:

P(aXb)=P(a<Xb)=P(aX<b)=P(a<X<b)P(a \le X \le b) = P(a < X \le b) = P(a \le X < b) = P(a < X < b)

这与离散情形有本质差异:在二项分布等离散分布中,是否包含端点直接影响概率计算结果。这一特性使连续随机变量的概率计算在某些方面比离散情形更为简洁。

与累积分布函数的关系

累积分布函数(CDF)记为 FX(x)=P(Xx) F_X(x) = P(X \le x) ,与 PDF 之间存在紧密的微积分联系:

  • 由 PDF 到 CDF(积分)FX(x)=xf(t)dt F_X(x) = \displaystyle\int_{-\infty}^x f(t)\,dt 。CDF 给出 PDF 曲线在 x x 点左侧的全部累积面积。利用 CDF 计算区间概率十分便捷:P(aXb)=F(b)F(a) P(a \le X \le b) = F(b) - F(a)
  • 由 CDF 到 PDF(求导):根据微积分基本定理,在 CDF 可导的点上,fX(x)=FX(x) f_X(x) = F'_X(x) 。PDF 因此可以视为累积概率的瞬时变化率。这一关系在非参数统计中常用于从经验 CDF 估计密度函数,例如核密度估计方法。

期望、方差与矩

PDF 为计算连续随机变量的提供了统一的积分框架:

  • 期望(均值)E[X]=xf(x)dx E[X] = \displaystyle\int_{-\infty}^\infty x\,f(x)\,dx 。期望是概率加权下的平均值,也是分布的一阶矩,刻画分布的中心位置。
  • 方差Var(X)=(xμ)2f(x)dx=E[X2](E[X])2 \text{Var}(X) = \displaystyle\int_{-\infty}^\infty (x-\mu)^2 f(x)\,dx = E[X^2] - (E[X])^2 。方差衡量随机变量偏离均值的程度,为二阶中心矩。其平方根为标准差

更高阶的矩(如偏度衡量分布的不对称性,峰度衡量尾部的厚薄程度)亦可通过类似积分定义。这些矩共同刻画分布的整体形状特征,是描述性统计与推断统计的重要工具。

常见概率分布及其 PDF

  1. 均匀分布f(x)=1ba f(x) = \dfrac{1}{b-a} axb a \le x \le b ),区间内各点密度恒定,代表完全无信息或等可能情形,是贝叶斯统计中无信息先验的常用选择。
  2. 正态分布f(x)=1σ2πexp ⁣((xμ)22σ2) f(x) = \dfrac{1}{\sigma\sqrt{2\pi}}\exp\!\bigl(-\dfrac{(x-\mu)^2}{2\sigma^2}\bigr) ,自然界与社会科学中最常见的分布,由中心极限定理保障其在大量独立随机变量之和下的核心地位。μ \mu 决定位置,σ \sigma 决定离散程度。
  3. 指数分布f(x)=λeλx f(x) = \lambda e^{-\lambda x} x0 x \ge 0 ),描述无记忆性事件的时间间隔,参数 λ \lambda 为事件发生率。
  4. 卡方分布:由独立标准正态变量的平方和构造,广泛用于假设检验置信区间的构造。
  5. 贝塔分布:定义于 (0,1) (0,1) 区间,形状灵活,是贝叶斯推断中共轭先验的经典案例。

多维推广:联合概率密度函数

当涉及两个及以上连续随机变量时,需引入联合概率密度函数 fX,Y(x,y) f_{X,Y}(x,y) 。此时概率由曲面下的体积给出:

P((X,Y)A)=AfX,Y(x,y)dxdyP((X,Y) \in A) = \iint_A f_{X,Y}(x,y)\,dx\,dy

联合 PDF 同样满足非负性与总积分为 1(全空间体积为 1)。通过对联合 PDF 沿某一维度积分,可得边际概率密度函数fX(x)=fX,Y(x,y)dy f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y)\,dy 。而条件概率密度函数定义为 fYX(yx)=fX,Y(x,y)/fX(x) f_{Y|X}(y|x) = f_{X,Y}(x,y) / f_X(x) ,给定一个变量时另一变量的分布。这些概念构成多元统计分析机器学习贝叶斯网络高斯混合模型等方法的数学基础。

总结

概率密度函数是连接连续随机变量与其概率分布的桥梁。通过积分求面积的方式计算概率、通过微分从 CDF 导出密度、以及通过积分定义各种矩,构成了连续概率论的核心框架。从单变量到多变量,从参数分布到非参数密度估计,PDF 的理解贯穿现代统计学的全部领域,是任何从事数据分析、计量经济学数据科学工作者的必备知识。