均方收敛 (Convergence in Mean Square)
均方收敛 ,又称L 2 L^2 L 2 收敛 ,是概率论 和统计学 中一种重要的随机变量收敛概念。若一列随机变量 { X n } \{X_n\} { X n } 与随机变量 X X X 满足当 n → ∞ n \to \infty n → ∞ 时,X n X_n X n 与 X X X 之差的二阶矩趋于零,则称 X n X_n X n 均方收敛 于 X X X 。均方收敛是希尔伯特空间 (L 2 L^2 L 2 空间)中依范数收敛的直接体现,在计量经济学 、时间序列分析 、大数定律 和中心极限定理 的证明中具有核心地位。
定义
设 X 1 , X 2 , … X_1, X_2, \dots X 1 , X 2 , … 为一列随机变量,X X X 为随机变量,且均具有有限的二阶矩(即 E [ X n 2 ] < ∞ E[X_n^2] < \infty E [ X n 2 ] < ∞ ,E [ X 2 ] < ∞ E[X^2] < \infty E [ X 2 ] < ∞ )。若:
lim n → ∞ E [ ( X n − X ) 2 ] = 0 \lim_{n \to \infty} E\left[(X_n - X)^2\right] = 0 n → ∞ lim E [ ( X n − X ) 2 ] = 0
则称 { X n } \{X_n\} { X n } 均方收敛 于 X X X ,记为 X n → L 2 X X_n \xrightarrow{L^2} X X n L 2 X 或 X n → m . s . X X_n \xrightarrow{m.s.} X X n m . s . X 。
等价地,该条件也可表述为 lim n → ∞ ∥ X n − X ∥ 2 = 0 \lim_{n \to \infty} \|X_n - X\|_2 = 0 lim n → ∞ ∥ X n − X ∥ 2 = 0 ,其中 ∥ ⋅ ∥ 2 = E [ ( ⋅ ) 2 ] \| \cdot \|_2 = \sqrt{E[(\cdot)^2]} ∥ ⋅ ∥ 2 = E [( ⋅ ) 2 ] 是 L 2 L^2 L 2 空间的范数。
均方收敛利用了 L 2 L^2 L 2 空间作为内积空间 的结构:内积定义为 ⟨ X , Y ⟩ = E [ X Y ] \langle X, Y \rangle = E[XY] ⟨ X , Y ⟩ = E [ X Y ] ,相应的范数为 ∥ X ∥ 2 = ⟨ X , X ⟩ \|X\|_2 = \sqrt{\langle X, X \rangle} ∥ X ∥ 2 = ⟨ X , X ⟩ 。这使得均方收敛不仅是一种收敛概念,更可以借助几何工具(如正交投影、柯西-施瓦茨不等式)进行分析。
基本性质
均方收敛具有以下重要性质:
线性性 :若 X n → L 2 X X_n \xrightarrow{L^2} X X n L 2 X 且 Y n → L 2 Y Y_n \xrightarrow{L^2} Y Y n L 2 Y ,则对任意常数 a , b a, b a , b ,有 a X n + b Y n → L 2 a X + b Y aX_n + bY_n \xrightarrow{L^2} aX + bY a X n + b Y n L 2 a X + bY 。连续性 :若 X n → L 2 X X_n \xrightarrow{L^2} X X n L 2 X ,则 E [ X n ] → E [ X ] E[X_n] \to E[X] E [ X n ] → E [ X ] 且 Var ( X n ) → Var ( X ) \operatorname{Var}(X_n) \to \operatorname{Var}(X) Var ( X n ) → Var ( X ) 。更一般地,均方收敛蕴含矩收敛:E [ X n k ] → E [ X k ] E[X_n^k] \to E[X^k] E [ X n k ] → E [ X k ] 对 k ≤ 2 k \leq 2 k ≤ 2 成立。唯一性 :若 X n → L 2 X X_n \xrightarrow{L^2} X X n L 2 X 且 X n → L 2 Y X_n \xrightarrow{L^2} Y X n L 2 Y ,则 X = Y X = Y X = Y 几乎必然成立。内积连续性 :若 X n → L 2 X X_n \xrightarrow{L^2} X X n L 2 X 且 Y n → L 2 Y Y_n \xrightarrow{L^2} Y Y n L 2 Y ,则 E [ X n Y n ] → E [ X Y ] E[X_n Y_n] \to E[XY] E [ X n Y n ] → E [ X Y ] 。这一性质在时间序列分析 的谱分析中尤为关键。
与其它收敛类型的关系
在概率论中,随机变量的收敛有多种定义方式,均方收敛是其中最"强"的收敛形式之一。
均方收敛蕴含依概率收敛 :若 X n → L 2 X X_n \xrightarrow{L^2} X X n L 2 X ,则对任意 ε > 0 \varepsilon > 0 ε > 0 ,由切比雪夫不等式 可得:
P ( ∣ X n − X ∣ ≥ ε ) ≤ 1 ε 2 E [ ( X n − X ) 2 ] → 0 P(|X_n - X| \geq \varepsilon) \leq \frac{1}{\varepsilon^2} E[(X_n - X)^2] \to 0 P ( ∣ X n − X ∣ ≥ ε ) ≤ ε 2 1 E [( X n − X ) 2 ] → 0
故 X n → p X X_n \xrightarrow{p} X X n p X 。反之,依概率收敛不一定推出均方收敛。
均方收敛蕴含L 1 L^1 L 1 收敛 :由赫尔德不等式 或柯西-施瓦茨不等式 ,有 E [ ∣ X n − X ∣ ] ≤ E [ ( X n − X ) 2 ] E[|X_n - X|] \leq \sqrt{E[(X_n - X)^2]} E [ ∣ X n − X ∣ ] ≤ E [( X n − X ) 2 ] ,因此均方收敛必然推出平均收敛 (L 1 L^1 L 1 收敛)。
与几乎必然收敛的比较 :均方收敛与几乎必然收敛 之间不存在蕴含关系。一列随机变量可以几乎必然收敛但不均方收敛,反之亦然。典型反例是阶梯函数序列在 [ 0 , 1 ] [0,1] [ 0 , 1 ] 上几乎处处收敛但二阶矩不收敛。
依分布收敛 是最弱的收敛形式,均方收敛可以推出依分布收敛,但反之不成立。上述关系通常用以下层级图表示:几乎必然收敛 和 均方收敛 分别位于最上层,二者均蕴含依概率收敛 ,而依概率收敛又蕴含依分布收敛 。
充分条件
判定均方收敛的常见充分条件包括:
柯西准则 :在 L 2 L^2 L 2 空间中,{ X n } \{X_n\} { X n } 均方收敛当且仅当它是 L 2 L^2 L 2 -柯西列,即 lim m , n → ∞ E [ ( X m − X n ) 2 ] = 0 \lim_{m,n \to \infty} E[(X_m - X_n)^2] = 0 lim m , n → ∞ E [( X m − X n ) 2 ] = 0 。由于 L 2 L^2 L 2 空间是完备的,这一条件等价于存在某随机变量 X X X 使得 X n → L 2 X X_n \xrightarrow{L^2} X X n L 2 X 。一致有界性加依概率收敛 :若 { X n } \{X_n\} { X n } 一致有界(即存在 M < ∞ M < \infty M < ∞ 使得 P ( ∣ X n ∣ ≤ M ) = 1 P(|X_n| \leq M) = 1 P ( ∣ X n ∣ ≤ M ) = 1 对所有 n n n 成立),且 X n → p X X_n \xrightarrow{p} X X n p X ,则 X n → L 2 X X_n \xrightarrow{L^2} X X n L 2 X 。矩条件 :若 X n → p X X_n \xrightarrow{p} X X n p X 且 lim sup n → ∞ E [ X n 2 ] < ∞ \limsup_{n \to \infty} E[X_n^2] < \infty lim sup n → ∞ E [ X n 2 ] < ∞ ,同时 X n X_n X n 一致可积(uniformly integrable),则 X n → L 2 X X_n \xrightarrow{L^2} X X n L 2 X 。特征函数条件 :均方收敛还可以通过特征函数 的导数行为进行刻画。若 { X n } \{X_n\} { X n } 的特征函数 φ n ( t ) \varphi_n(t) φ n ( t ) 在 t = 0 t = 0 t = 0 处一致可微,且 φ n ′ ( 0 ) \varphi_n'(0) φ n ′ ( 0 ) 收敛,则序列可能在均方意义下收敛。
在统计学与计量经济学中的应用
均方收敛在统计学理论中具有广泛的应用。
大数定律 :弱大数定律 的一种常见形式是:若 X 1 , X 2 , … X_1, X_2, \dots X 1 , X 2 , … 为独立同分布随机变量,具有有限二阶矩,则样本均值 X ˉ n \bar{X}_n X ˉ n 均方收敛于总体均值 μ = E [ X 1 ] \mu = E[X_1] μ = E [ X 1 ] 。这是因为:
E [ ( X ˉ n − μ ) 2 ] = Var ( X ˉ n ) = σ 2 n → 0 E\left[(\bar{X}_n - \mu)^2\right] = \operatorname{Var}(\bar{X}_n) = \frac{\sigma^2}{n} \to 0 E [ ( X ˉ n − μ ) 2 ] = Var ( X ˉ n ) = n σ 2 → 0
这一结论实际上比依概率收敛的大数定律更强,因为它不仅保证了估计量的一致性,还给出了收敛的速度 O ( 1 / n ) O(1/n) O ( 1/ n ) 。
一致性估计量 :在计量经济学 中,均方收敛是证明估计量一致性的重要工具。若某估计量 θ ^ n \hat{\theta}_n θ ^ n 满足 E [ ( θ ^ n − θ ) 2 ] → 0 E[(\hat{\theta}_n - \theta)^2] \to 0 E [( θ ^ n − θ ) 2 ] → 0 ,则称 θ ^ n \hat{\theta}_n θ ^ n 是 θ \theta θ 的均方一致 估计量。均方一致性蕴含依概率一致性,但要求更强的矩条件。
均方误差分解 :对于点估计问题,均方收敛的极限条件自然联系到均方误差 (MSE)的分解:
E [ ( θ ^ n − θ ) 2 ] = Bias ( θ ^ n ) 2 + Var ( θ ^ n ) E\left[(\hat{\theta}_n - \theta)^2\right] = \operatorname{Bias}(\hat{\theta}_n)^2 + \operatorname{Var}(\hat{\theta}_n) E [ ( θ ^ n − θ ) 2 ] = Bias ( θ ^ n ) 2 + Var ( θ ^ n )
当 n → ∞ n \to \infty n → ∞ 时,若偏差和方差都趋于零,则 θ ^ n \hat{\theta}_n θ ^ n 均方收敛于 θ \theta θ 。这一分解是判断估计量大样本性质的标准方法。例如,在非参数核密度估计中,窗宽参数的选择正是通过权衡偏差与方差来实现均方收敛的最优速率。
时间序列 :在时间序列分析 中,均方收敛用于定义线性过程的收敛性。例如,M A ( ∞ ) MA(\infty) M A ( ∞ ) 过程 X t = ∑ j = 0 ∞ ψ j ε t − j X_t = \sum_{j=0}^{\infty} \psi_j \varepsilon_{t-j} X t = ∑ j = 0 ∞ ψ j ε t − j 要求在均方意义下收敛,即 ∑ j = 0 ∞ ψ j 2 < ∞ \sum_{j=0}^{\infty} \psi_j^2 < \infty ∑ j = 0 ∞ ψ j 2 < ∞ 。这等价于过程具有有限方差,是时间序列平稳性的基本条件。
投影与预测 :在希尔伯特空间 投影定理中,线性最小均方误差预测的解正是基于均方收敛的概念。给定信息集 F n \mathcal{F}_n F n ,条件期望 E [ Y ∣ F n ] E[Y \mid \mathcal{F}_n] E [ Y ∣ F n ] 是 Y Y Y 在 L 2 L^2 L 2 空间中的正交投影,且为最优预测。维纳-科尔莫戈罗夫预测理论 的核心正是利用这一几何结构推导最佳线性预测的表达式。
数值示例
考虑随机变量序列 X n = Z n X_n = \frac{Z}{n} X n = n Z ,其中 Z Z Z 为标准正态随机变量 N ( 0 , 1 ) N(0, 1) N ( 0 , 1 ) 。则:
E [ ( X n − 0 ) 2 ] = E [ ( Z n ) 2 ] = 1 n 2 E [ Z 2 ] = 1 n 2 → 0 E\left[(X_n - 0)^2\right] = E\left[\left(\frac{Z}{n}\right)^2\right] = \frac{1}{n^2} E[Z^2] = \frac{1}{n^2} \to 0 E [ ( X n − 0 ) 2 ] = E [ ( n Z ) 2 ] = n 2 1 E [ Z 2 ] = n 2 1 → 0
因此 X n → L 2 0 X_n \xrightarrow{L^2} 0 X n L 2 0 。该序列同时依概率收敛于 0,且几乎必然收敛于 0。
作为对比,考虑序列 X n = n ⋅ I [ 0 , 1 / n ] ( U ) X_n = n \cdot I_{[0, 1/n]}(U) X n = n ⋅ I [ 0 , 1/ n ] ( U ) ,其中 U ∼ Uniform ( 0 , 1 ) U \sim \operatorname{Uniform}(0, 1) U ∼ Uniform ( 0 , 1 ) 。可以验证 X n → p 0 X_n \xrightarrow{p} 0 X n p 0 ,但 E [ X n 2 ] = n 2 ⋅ ( 1 / n ) = n → ∞ E[X_n^2] = n^2 \cdot (1/n) = n \to \infty E [ X n 2 ] = n 2 ⋅ ( 1/ n ) = n → ∞ ,故 { X n } \{X_n\} { X n } 不均方收敛于 0。这展示了均方收敛对二阶矩有界的严格要求。
另一个富有趣味的例子是随机游走的均方行为。设 S n = ∑ i = 1 n ε i S_n = \sum_{i=1}^n \varepsilon_i S n = ∑ i = 1 n ε i ,其中 { ε i } \{\varepsilon_i\} { ε i } 为独立同分布随机变量,E [ ε i ] = 0 E[\varepsilon_i] = 0 E [ ε i ] = 0 ,Var ( ε i ) = σ 2 < ∞ \operatorname{Var}(\varepsilon_i) = \sigma^2 < \infty Var ( ε i ) = σ 2 < ∞ 。则标准化统计量 S n / n S_n/\sqrt{n} S n / n 不会均方收敛(因为其方差恒为 σ 2 \sigma^2 σ 2 而非趋于零),但中心极限定理 表明它依分布收敛于正态分布。这清楚地表明,依分布收敛与均方收敛是两个不同的概念。
在计量经济学中,考虑回归参数的普通最小二乘法 (OLS)估计量 β ^ n \hat{\boldsymbol{\beta}}_n β ^ n 。在标准假设下,β ^ n \hat{\boldsymbol{\beta}}_n β ^ n 是均方一致的,即 E [ ∥ β ^ n − β ∥ 2 ] → 0 E[\|\hat{\boldsymbol{\beta}}_n - \boldsymbol{\beta}\|^2] \to 0 E [ ∥ β ^ n − β ∥ 2 ] → 0 ,这为经典线性模型的渐近分析提供了基础。
小结
均方收敛是概率论和数理统计中一种强收敛模式,它要求随机变量序列与被极限对象之间的平均平方偏差趋于零。其理论重要性源于 L 2 L^2 L 2 空间的良好几何结构(内积空间与完备性),使得许多最优性结果(如最小均方误差预测)和极限定理(如大数定律)得以在统一的框架下建立。在经济与金融计量学中,均方收敛为估计量的渐近分析、预测评估和假设检验提供了坚实的理论基础。
\begin{thebibliography}{9} \bibitem{billingsley1999} Billingsley, P. (1999). Convergence of Probability Measures (2nd ed.). Wiley. \bibitem{shao2003} Shao, J. (2003). Mathematical Statistics (2nd ed.). Springer. \bibitem{durrett2019} Durrett, R. (2019). Probability: Theory and Examples (5th ed.). Cambridge University Press. \bibitem{hamilton1994} Hamilton, J. D. (1994). Time Series Analysis . Princeton University Press. \end{thebibliography}