连续均匀分布
连续均匀分布 =概率论 中最基本的连续概率分布 →随机变量在有限区间[ a , b ] [a,b] [ a , b ] 内任意等长子区间取值的概率相等→描述"完全无知"或"等可能"的先验信念→是贝叶斯统计 中无信息先验的重要选择→也是蒙特卡洛方法 中生成一切随机变量的起点。记为 X ∼ U ( a , b ) X\sim U(a,b) X ∼ U ( a , b ) 或 X ∼ Uniform ( a , b ) X\sim\text{Uniform}(a,b) X ∼ Uniform ( a , b ) 。
定义与密度函数
若连续随机变量X X X 取值于区间[ a , b ] [a,b] [ a , b ] (a < b a<b a < b ),其概率密度函数 PDF为:
f(x;a,b)=\begin{cases}
\frac{1}{b-a}, & a\leq x\leq b\\
0, \& 其他 \text{其他} 其他
\end{cases}
密度在支撑集上恒为常数1 b − a \frac{1}{b-a} b − a 1 →图形为[ a , b ] [a,b] [ a , b ] 上的水平线段+两端零→是连续分布中最简单的密度形式。参数a a a =下界 (位置参数),b b b =上界 ,区间长度b − a b-a b − a 决定密度高度→区间越长密度越低以保证总积分为1。支撑集紧致→保证了一切矩均有限存在→与正态分布 等无界支撑分布形成对比。
参数约束 :必须a < b a<b a < b →若a = b a=b a = b 则退化为退化分布 (单点分布)→无密度。实际应用中常标准化至U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) 以简化分析。
累积分布函数CDF
F(x)=P(X\leq x)=\begin{cases}
0, \& x<a\\
\frac{x-a}{b-a}, & a\leq x<b\\
1, \& x\geq b
\end{cases}
CDF在[ a , b ] [a,b] [ a , b ] 内线性增长→斜率=1 b − a \frac{1}{b-a} b − a 1 →直观反映"等可能":设子区间[ c , d ] ⊂ [ a , b ] [c,d]\subset[a,b] [ c , d ] ⊂ [ a , b ] →P ( c ≤ X ≤ d ) = d − c b − a P(c\leq X\leq d)=\frac{d-c}{b-a} P ( c ≤ X ≤ d ) = b − a d − c →概率仅取决于区间长度→与位置无关。此性质可作另一定义:若某连续分布的CDF在支撑集上为线性函数→则该分布必为均匀分布。
数字特征
期望/均值 :E [ X ] = a + b 2 E[X]=\frac{a+b}{2} E [ X ] = 2 a + b ——区间中点→对称性自然结果→是位置参数的直接体现。中位数 := a + b 2 =\frac{a+b}{2} = 2 a + b ——与均值重合→因为分布关于中心完全对称。方差 :Var ( X ) = ( b − a ) 2 12 \text{Var}(X)=\frac{(b-a)^2}{12} Var ( X ) = 12 ( b − a ) 2 ——仅取决于区间长度平方→区间越宽→不确定性越大。推导:先求二阶原点矩E [ X 2 ] = ∫ a b x 2 1 b − a d x = a 2 + a b + b 2 3 E[X^2]=\int_a^b x^2\frac{1}{b-a}dx=\frac{a^2+ab+b^2}{3} E [ X 2 ] = ∫ a b x 2 b − a 1 d x = 3 a 2 + ab + b 2 →再Var = E [ X 2 ] − ( E [ X ] ) 2 = ( b − a ) 2 12 \text{Var}=E[X^2]-(E[X])^2=\frac{(b-a)^2}{12} Var = E [ X 2 ] − ( E [ X ] ) 2 = 12 ( b − a ) 2 。标准差σ = b − a 2 3 \sigma=\frac{b-a}{2\sqrt{3}} σ = 2 3 b − a 约为区间长度的0.289倍。矩母函数MGF :M X ( t ) = e t b − e t a t ( b − a ) M_X(t)=\frac{e^{tb}-e^{ta}}{t(b-a)} M X ( t ) = t ( b − a ) e t b − e t a (t ≠ 0 t\neq0 t = 0 ),M X ( 0 ) = 1 M_X(0)=1 M X ( 0 ) = 1 →通过极限t → 0 t\to0 t → 0 时洛必达法则验证。特征函数 :φ X ( t ) = e i t b − e i t a i t ( b − a ) \varphi_X(t)=\frac{e^{itb}-e^{ita}}{it(b-a)} φ X ( t ) = i t ( b − a ) e i t b − e i t a →在证明中心极限定理 相关命题时常用。熵 :微分熵=ln ( b − a ) \ln(b-a) ln ( b − a ) →在所有支撑集为[ a , b ] [a,b] [ a , b ] 的连续分布中,均匀分布的熵最大 →即"最少信息/最大不确定性"→是最大熵原理 的自然先验→当仅知变量范围而不知其他任何信息时→均匀分布是唯一合理的选择。偏度 :0——完全对称→无偏斜。峰度 :9 5 = 1.8 \frac{9}{5}=1.8 5 9 = 1.8 ——低于正态分布的3→均匀分布的尾部比正态更"薄"→极端值不可能超出[ a , b ] [a,b] [ a , b ] 。
与其他分布的关系
①概率积分变换 :若X ∼ U ( 0 , 1 ) X\sim U(0,1) X ∼ U ( 0 , 1 ) →对任意连续分布F Y F_Y F Y (严格增)→Y = F Y − 1 ( X ) ∼ F Y Y=F_Y^{-1}(X)\sim F_Y Y = F Y − 1 ( X ) ∼ F Y →均匀分布是生成一切连续分布的"原子分布"→逆变换采样 的基础→蒙特卡洛模拟 核心工具→无论目标分布多复杂→只要CDF可逆→即可从U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) 采样。
②与Beta分布 :U ( 0 , 1 ) = Beta ( 1 , 1 ) U(0,1)=\text{Beta}(1,1) U ( 0 , 1 ) = Beta ( 1 , 1 ) →Beta分布在α = β = 1 \alpha=\beta=1 α = β = 1 时退化为均匀分布→Beta族可视为均匀分布的灵活推广→通过调整α , β \alpha,\beta α , β 可拟合U形、钟形、J形等多种形状。
③与指数分布 :若X ∼ U ( 0 , 1 ) X\sim U(0,1) X ∼ U ( 0 , 1 ) →Y = − λ ln X ∼ Exp ( λ ) Y=-\lambda\ln X\sim\text{Exp}(\lambda) Y = − λ ln X ∼ Exp ( λ ) →此即指数分布的逆变换采样公式→广泛用于排队论与可靠性工程模拟。
④顺序统计量 :n n n 个独立U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) 的第k k k 顺序统计量→X ( k ) ∼ Beta ( k , n − k + 1 ) X_{(k)}\sim\text{Beta}(k,n-k+1) X ( k ) ∼ Beta ( k , n − k + 1 ) →此性质在非参数统计 和排序检验 中关键→如Kolmogorov-Smirnov检验 的零分布即基于均匀顺序统计量。
⑤与正态分布 :Box-Muller变换 →两独立U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) →Z 1 = − 2 ln U 1 cos ( 2 π U 2 ) Z_1=\sqrt{-2\ln U_1}\cos(2\pi U_2) Z 1 = − 2 ln U 1 cos ( 2 π U 2 ) ,Z 2 = − 2 ln U 1 sin ( 2 π U 2 ) Z_2=\sqrt{-2\ln U_1}\sin(2\pi U_2) Z 2 = − 2 ln U 1 sin ( 2 π U 2 ) →独立标准正态→是正态随机数生成的经典方法。
⑥与柯西分布 :若X ∼ U ( − π / 2 , π / 2 ) X\sim U(-\pi/2,\pi/2) X ∼ U ( − π /2 , π /2 ) →Y = tan X ∼ Cauchy ( 0 , 1 ) Y=\tan X\sim\text{Cauchy}(0,1) Y = tan X ∼ Cauchy ( 0 , 1 ) 。
经济与统计应用
随机化实验 :随机对照试验 RCT中→处理分配常取U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) →若u i ≤ p u_i\leq p u i ≤ p 则入处理组→保证无混杂偏倚→是因果推断 中潜在结果框架 的基础操作。
蒙特卡洛积分 :∫ a b g ( x ) d x ≈ b − a n ∑ i = 1 n g ( X i ) \int_a^b g(x)dx\approx\frac{b-a}{n}\sum_{i=1}^n g(X_i) ∫ a b g ( x ) d x ≈ n b − a ∑ i = 1 n g ( X i ) ,X i ∼ i i d U ( a , b ) X_i\overset{iid}{\sim}U(a,b) X i ∼ ii d U ( a , b ) →大数定律 保证n → ∞ n\to\infty n → ∞ 时收敛→收敛速率O ( 1 / n ) O(1/\sqrt{n}) O ( 1/ n ) 与维度无关→是数值积分 与贝叶斯计算 (MCMC)的基石。
拍卖与博弈 :第一价格密封拍卖 中→竞标者私有估值常设v i ∼ U [ 0 , 1 ] v_i\sim U[0,1] v i ∼ U [ 0 , 1 ] →对称均衡出价策略b ( v ) = n − 1 n v b(v)=\frac{n-1}{n}v b ( v ) = n n − 1 v →竞标者按比例压低报价→随竞标者数n n n 增加→报价趋近真实估值→是拍卖理论 的标准入门模型。
稳健性检验 :敏感性分析中→对不确定参数设均匀先验(最大熵理由)→考察结论在参数范围内的稳定性→若结论对均匀先验不敏感→则对其他先验也大概率稳健。
随机效用模型 :Logit模型 中→随机效用ϵ i j \epsilon_{ij} ϵ ij 若设均匀而非极值分布 →得线性概率模型LPM→虽不如Logit常用→但直观阐明离散选择中"效用最大化→选择概率"的基本逻辑→且LPM在边际效应估计上有独特优势。
接受-拒绝采样 :当目标分布的CDF不可逆时→用均匀分布作为提议分布 →结合接受概率筛选样本→是通用随机数生成框架→MCMC 中Metropolis-Hastings 算法的思想前身。
连续均匀与离散均匀 :两者共享"等可能"核心思想→但连续均匀的P ( X = x ) = 0 P(X=x)=0 P ( X = x ) = 0 对任意单点→而离散均匀P ( X = x i ) = 1 / n P(X=x_i)=1/n P ( X = x i ) = 1/ n →本质区别在于测度→连续用Lebesgue测度→离散用计数测度→该对偶关系贯穿概率论 全部理论。
参数估计
给定独立同分布样本X 1 , … , X n ∼ U ( a , b ) X_1,\dots,X_n\sim U(a,b) X 1 , … , X n ∼ U ( a , b ) (a , b a,b a , b 未知)→矩估计 :令X ˉ = a ^ + b ^ 2 \bar{X}=\frac{\hat{a}+\hat{b}}{2} X ˉ = 2 a ^ + b ^ ,S 2 = ( b ^ − a ^ ) 2 12 S^2=\frac{(\hat{b}-\hat{a})^2}{12} S 2 = 12 ( b ^ − a ^ ) 2 →解得a ^ = X ˉ − 3 S \hat{a}=\bar{X}-\sqrt{3}S a ^ = X ˉ − 3 S ,b ^ = X ˉ + 3 S \hat{b}=\bar{X}+\sqrt{3}S b ^ = X ˉ + 3 S →简单但不保证a ^ ≤ min X i \hat{a}\leq\min X_i a ^ ≤ min X i 或b ^ ≥ max X i \hat{b}\geq\max X_i b ^ ≥ max X i 。
极大似然估计MLE :似然函数L ( a , b ) = ∏ i = 1 n 1 b − a ⋅ 1 [ a ≤ X i ≤ b ] = 1 ( b − a ) n ⋅ 1 [ a ≤ X ( 1 ) , X ( n ) ≤ b ] L(a,b)=\prod_{i=1}^n\frac{1}{b-a}\cdot\mathbf{1}_{[a\leq X_i\leq b]}=\frac{1}{(b-a)^n}\cdot\mathbf{1}_{[a\leq X_{(1)},X_{(n)}\leq b]} L ( a , b ) = ∏ i = 1 n b − a 1 ⋅ 1 [ a ≤ X i ≤ b ] = ( b − a ) n 1 ⋅ 1 [ a ≤ X ( 1 ) , X ( n ) ≤ b ] →其中X ( 1 ) = min X i X_{(1)}=\min X_i X ( 1 ) = min X i ,X ( n ) = max X i X_{(n)}=\max X_i X ( n ) = max X i 为顺序统计量 。似然随b − a b-a b − a 减小而增大→故应使区间尽可能窄但仍覆盖所有样本→MLE为a ^ M L E = X ( 1 ) \hat{a}_{MLE}=X_{(1)} a ^ M L E = X ( 1 ) ,b ^ M L E = X ( n ) \hat{b}_{MLE}=X_{(n)} b ^ M L E = X ( n ) 。MLE有偏但一致 →a ^ M L E \hat{a}_{MLE} a ^ M L E 低估a a a →b ^ M L E \hat{b}_{MLE} b ^ M L E 高估b b b →因为样本极值倾向于落在真实边界之内。均匀分布的MLE不满足正则条件 (支撑集依赖参数)→Fisher信息矩阵标准理论不直接适用→渐近分布非正态而是极值分布 →是统计推断中重要的反例。
标准均匀分布
特例U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) →PDF=1(0 ≤ x ≤ 1 0\leq x\leq1 0 ≤ x ≤ 1 )→CDF=x x x (恒等函数)→均值1 2 \frac12 2 1 →方差1 12 \frac1{12} 12 1 →是最常用的基准分布。任何X ∼ U ( a , b ) X\sim U(a,b) X ∼ U ( a , b ) 可经线性变换Z = X − a b − a ∼ U ( 0 , 1 ) Z=\frac{X-a}{b-a}\sim U(0,1) Z = b − a X − a ∼ U ( 0 , 1 ) 标准化→标准化均匀是连续分布族的"原点"→类似标准正态N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 在正态族中的地位→几乎所有统计软件的随机数生成器都以U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) 为底层引擎→再通过变换产生各类分布→这一事实凸显了均匀分布在计算统计中的枢纽地位。