几何分布 (Geometric Distribution)
几何分布→离散概率分布→描伯努利过程中"等待第一次成功"所需试验次数。核心假设:独立伯努利试验、二元结果(成功/失败)、恒定成功概率p。名称源于其概率质量函数(PMF)呈等比数列(几何级数)。是负二项分布(r=1)特例→连续类比为指数分布。
两种定义形式
几何分布存在两种广泛使用的定义→涉及随机变量取值范围的差异→对PMF、期望和方差均有影响→在任何应用中必须首先明确所用定义。
形式一(试验次数X):取得第一次成功所需总试验次数→支持集k=1,2,3,…→PMF: P(X=k)=(1−p)k−1p→序列为前k−1次失败后跟第k次成功→概率由独立性直接相乘得到。X=1表示首次试验即成功。
形式二(失败次数Y):首次成功前经历的失败次数→支持集k=0,1,2,…→PMF: P(Y=k)=(1−p)kp→Y=X−1。Y=0表示首次试验即成功(零失败)。不同教材和统计软件(R语言\texttt{dgeom}默认形式二、Python \texttt{scipy}可指定)默认不同→使用时务必查阅文档确认。
期望与方差
形式一:E[X]=1/p→直观:p=1/4时平均需4次试验。推导:E[X]=∑k=1∞kp(1−p)k−1=p⋅p21=p1。
形式二:E[Y]=E[X]−1=(1−p)/p。
方差统一:Var(X)=Var(Y)=(1−p)/p2→p小时方差大→等待次数波动剧烈→例如p=0.01时方差高达9900。
无记忆性(核心性质)
几何分布是唯一具有无记忆性的离散分布:P(X>m+n∣X>n)=P(X>m)。过去失败不影响未来成功概率→系统"忘记"已发生的失败。
证:P(X>k)=(1−p)k(前k次全失败)→P(X>m+n∣X>n)=(1−p)n(1−p)m+n=(1−p)m=P(X>m)。
CDF:FX(k)=P(X≤k)=1−(1−p)k。连续对应物→指数分布→同样具有无记忆性。
与其他分布的关系
伯努利分布:单次试验模型→几何分布是伯努利试验重复至首次成功。负二项分布:几何分布是r=1的特例→Geometric(p)≡NegativeBinomial(1,p)→负二项推广至"等待第r次成功"。
应用实例
质量检测→次品率p=0.05→第10个首次发现次品概率:P(X=10)=(0.95)9×0.05≈0.0315→期望E[X]=1/0.05=20个。
游戏抽奖→p=0.01→已抽50次未中→接下来10次内抽中概率与新手前10次完全相同→无记忆性→过去"霉运"不增未来机会→警惕赌徒谬误:认为"该中了"是错觉。
记忆:几何分布="等首次成功"→两种定义需辨析(次数vs失败数)→无记忆→期望1/p→负二项特例→离散版指数分布。警惕与赌徒谬误的混淆:无记忆性恰说明"该中了"是认知偏差→每次试验独立→历史不影响未来。