概率密度函数 (Probability Density Function, PDF)
概率密度函数 (Probability Density Function, PDF)是描述连续型随机变量 概率分布的核心工具。与离散型随机变量 使用概率质量函数 (PMF)直接给出每个点的概率不同,连续随机变量取任意单个特定值的概率恒为零,因此必须通过密度函数在区间上的积分来刻画概率。直观上,密度函数 f ( x ) f(x) f ( x ) 在某一点 x x x 处的值并不代表该点的概率,而是表示随机变量取值落在 x x x 附近一个极小邻域内的"概率密度"——数值越高,观测值落入该区域的相对可能性越大。
正式定义
设 X X X 为连续型随机变量,其累积分布函数 (CDF)为 F X ( x ) = P ( X ≤ x ) F_X(x) = P(X \le x) F X ( x ) = P ( X ≤ x ) 。若存在非负可积函数 f X : R → [ 0 , ∞ ) f_X: \mathbb{R} \to [0, \infty) f X : R → [ 0 , ∞ ) ,使得对任意实数 x x x 有:
F X ( x ) = ∫ − ∞ x f X ( t ) d t F_X(x) = \int_{-\infty}^{x} f_X(t) \, dt F X ( x ) = ∫ − ∞ x f X ( t ) d t
则称 f X f_X f X 为 X X X 的概率密度函数。由微积分基本定理 ,在 f X f_X f X 的连续点处有 f X ( x ) = F X ′ ( x ) f_X(x) = F_X'(x) f X ( x ) = F X ′ ( x ) 。任一区间 [ a , b ] [a, b] [ a , b ] 上的概率由积分给出:
P ( a ≤ X ≤ b ) = ∫ a b f X ( x ) d x P(a \le X \le b) = \int_{a}^{b} f_X(x) \, dx P ( a ≤ X ≤ b ) = ∫ a b f X ( x ) d x
基本性质
概率密度函数必须满足以下两条公理化约束:
非负性 :f X ( x ) ≥ 0 f_X(x) \ge 0 f X ( x ) ≥ 0 对所有 x ∈ R x \in \mathbb{R} x ∈ R 成立。这是概率非负的直接推论。归一化 :∫ − ∞ ∞ f X ( x ) d x = 1 \int_{-\infty}^{\infty} f_X(x) \, dx = 1 ∫ − ∞ ∞ f X ( x ) d x = 1 。这等价于 F X ( ∞ ) = 1 F_X(\infty) = 1 F X ( ∞ ) = 1 ,即随机变量必然落在实数轴上某处。
重要注意事项 :与概率质量函数不同,密度函数的值可以大于 1。例如,区间 [ 0 , 0.5 ] [0, 0.5] [ 0 , 0.5 ] 上的均匀分布 X ∼ U ( 0 , 0.5 ) X \sim U(0, 0.5) X ∼ U ( 0 , 0.5 ) 的密度函数为 f ( x ) = 2 f(x) = 2 f ( x ) = 2 (当 x ∈ [ 0 , 0.5 ] x \in [0, 0.5] x ∈ [ 0 , 0.5 ] )。f ( x ) > 1 f(x) > 1 f ( x ) > 1 并不违反概率公理,因为概率由积分面积而非单点值决定。只要总面积(积分)为 1、每一步的高度(密度)为非负,函数就是有效的密度函数。
与累积分布函数的关系
PDF 与 CDF 构成微积分中的导数-积分对:
f X ( x ) = d d x F X ( x ) , F X ( x ) = ∫ − ∞ x f X ( t ) d t f_X(x) = \frac{d}{dx} F_X(x), \quad F_X(x) = \int_{-\infty}^{x} f_X(t) \, dt f X ( x ) = d x d F X ( x ) , F X ( x ) = ∫ − ∞ x f X ( t ) d t
这一关系具有重要的计算意义:当 CDF 具有显式表达式时,可通过求导获得 PDF;反之,当 PDF 形式简洁但 CDF 无封闭形式时(如正态分布 ),概率需通过数值积分或查表获得。对于分段定义的密度函数,CDF 通常在分段点处连续但不可导。
常见连续分布及其密度函数
以下是统计学和计量经济学中最常遇到的密度函数:
正态分布 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X ∼ N ( μ , σ 2 ) :
f ( x ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) , x ∈ R f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right), \quad x \in \mathbb{R} f ( x ) = 2 π σ 2 1 exp ( − 2 σ 2 ( x − μ ) 2 ) , x ∈ R
正态密度呈钟形,以 μ \mu μ 为中心、σ \sigma σ 控制离散程度。由中心极限定理 保证其在统计推断中的核心地位。
均匀分布 X ∼ U ( a , b ) X \sim U(a, b) X ∼ U ( a , b ) :
f ( x ) = 1 b − a , x ∈ [ a , b ] f(x) = \frac{1}{b - a}, \quad x \in [a, b] f ( x ) = b − a 1 , x ∈ [ a , b ]
最简单的连续分布,在区间内等可能。
指数分布 X ∼ Exp ( λ ) X \sim \text{Exp}(\lambda) X ∼ Exp ( λ ) :
f ( x ) = λ e − λ x , x ≥ 0 f(x) = \lambda e^{-\lambda x}, \quad x \ge 0 f ( x ) = λ e − λ x , x ≥ 0
具有无记忆性 ,广泛用于建模等待时间和故障时间。参数 λ > 0 \lambda > 0 λ > 0 为速率参数。
伽玛分布 X ∼ Gamma ( α , β ) X \sim \text{Gamma}(\alpha, \beta) X ∼ Gamma ( α , β ) :
f ( x ) = β α Γ ( α ) x α − 1 e − β x , x ≥ 0 f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha - 1} e^{-\beta x}, \quad x \ge 0 f ( x ) = Γ ( α ) β α x α − 1 e − β x , x ≥ 0
其中 Γ ( α ) \Gamma(\alpha) Γ ( α ) 为伽玛函数 。指数分布和卡方分布 均为伽玛分布的特例。
Beta分布 X ∼ Beta ( α , β ) X \sim \text{Beta}(\alpha, \beta) X ∼ Beta ( α , β ) :
f ( x ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 , x ∈ [ 0 , 1 ] f(x) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} x^{\alpha - 1} (1 - x)^{\beta - 1}, \quad x \in [0, 1] f ( x ) = Γ ( α ) Γ ( β ) Γ ( α + β ) x α − 1 ( 1 − x ) β − 1 , x ∈ [ 0 , 1 ]
定义在有限区间 [ 0 , 1 ] [0, 1] [ 0 , 1 ] 上,是贝叶斯统计 中二项似然的共轭先验。
随机变量变换的密度函数
若 X X X 具有密度 f X f_X f X ,而 Y = g ( X ) Y = g(X) Y = g ( X ) 是 X X X 的严格单调可微函数,则 Y Y Y 的密度由变量变换公式给出:
f Y ( y ) = f X ( g − 1 ( y ) ) ⋅ ∣ d d y g − 1 ( y ) ∣ f_Y(y) = f_X\big(g^{-1}(y)\big) \cdot \left| \frac{d}{dy} g^{-1}(y) \right| f Y ( y ) = f X ( g − 1 ( y ) ) ⋅ d y d g − 1 ( y )
对于非单调变换,需将定义域分割为单调区间分别处理并求和。多维情形下推广为:
f Y ( y ) = f X ( g − 1 ( y ) ) ⋅ ∣ det J g − 1 ( y ) ∣ f_{\mathbf{Y}}(\mathbf{y}) = f_{\mathbf{X}}\big(g^{-1}(\mathbf{y})\big) \cdot \left| \det J_{g^{-1}}(\mathbf{y}) \right| f Y ( y ) = f X ( g − 1 ( y ) ) ⋅ det J g − 1 ( y )
其中 J g − 1 J_{g^{-1}} J g − 1 为逆变换的雅可比矩阵 ,det \det det 为其行列式的绝对值。这一技术在推导t分布 、F分布 等抽样分布时不可回避。
联合密度、边缘密度与条件密度
多维连续随机向量 X = ( X 1 , … , X n ) \mathbf{X} = (X_1, \ldots, X_n) X = ( X 1 , … , X n ) 的概率行为由联合概率密度函数 f X 1 , … , X n ( x 1 , … , x n ) f_{X_1, \ldots, X_n}(x_1, \ldots, x_n) f X 1 , … , X n ( x 1 , … , x n ) 描述。单个分量 X i X_i X i 的边缘密度 通过对其他所有变量积分获得:
f X i ( x i ) = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ f X ( x 1 , … , x n ) d x 1 ⋯ d x i − 1 d x i + 1 ⋯ d x n f_{X_i}(x_i) = \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f_{\mathbf{X}}(x_1, \ldots, x_n) \, dx_1 \cdots dx_{i-1} \, dx_{i+1} \cdots dx_n f X i ( x i ) = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ f X ( x 1 , … , x n ) d x 1 ⋯ d x i − 1 d x i + 1 ⋯ d x n
给定 X 2 = x 2 X_2 = x_2 X 2 = x 2 时 X 1 X_1 X 1 的条件密度 定义为:
f X 1 ∣ X 2 ( x 1 ∣ x 2 ) = f X 1 , X 2 ( x 1 , x 2 ) f X 2 ( x 2 ) , f X 2 ( x 2 ) > 0 f_{X_1 \mid X_2}(x_1 \mid x_2) = \frac{f_{X_1, X_2}(x_1, x_2)}{f_{X_2}(x_2)}, \quad f_{X_2}(x_2) > 0 f X 1 ∣ X 2 ( x 1 ∣ x 2 ) = f X 2 ( x 2 ) f X 1 , X 2 ( x 1 , x 2 ) , f X 2 ( x 2 ) > 0
条件密度是条件期望 、回归分析 和贝叶斯推断 的基础构件。从联合密度到条件密度的分解体现了统计建模中"从联合分布理解变量间全部依赖关系"的核心思想。
在经济学与计量经济学中的应用
概率密度函数贯穿经济学实证研究的每一个环节。在最大似然估计 (MLE)中,似然函数由观测数据的联合密度构造——独立样本下的联合密度为各观测密度的乘积,最大化该乘积即得参数估计。在假设检验 中,检验统计量 在零假设下的密度决定了临界值和p值 的计算。
在金融计量经济学 中,资产收益率的密度估计是风险价值 (VaR)和期望尾部损失 (ES)等风险度量计算的前提。金融收益数据通常呈现尖峰厚尾 特征(相对于正态分布),促使研究者使用t分布 、广义误差分布 (GED)或偏态分布 族来更准确地拟合尾部的概率密度。
在微观计量经济学 中,样本选择模型 (如Heckman两阶段法 )和处理效应模型 的识别与估计依赖于对潜变量联合密度的参数假设。核密度估计 等非参数方法则在无需预设分布形式的情况下,直接从数据中估计密度函数,为探索性数据分析和稳健推断提供了灵活的工具。
概率密度函数不仅是一个数学定义,更是连接概率理论、统计推断和经济实证研究的桥梁。掌握密度函数的性质、变换和多元扩展,是理解现代计量经济学方法的必要条件。