ARTICLE
Karl Pearson
Karl Pearson Karl Pearson(卡尔·皮尔逊,1857--1936)是英国数学家、生物统计学家和科学哲学家,被誉为现代统计学的奠基人之一。他在相关性理论、卡方检验、矩估计法和假设检验等领域的开创性工作,从根本上塑造了二十世纪统计学的方法论体系。Pearson 于 1911 年在伦敦大学学院创立了世界上第一个统计学系,并长期担任《生物计量学
Karl Pearson
Karl Pearson(卡尔·皮尔逊,1857--1936)是英国数学家、生物统计学家和科学哲学家,被誉为现代统计学的奠基人之一。他在相关性理论、卡方检验、矩估计法和假设检验等领域的开创性工作,从根本上塑造了二十世纪统计学的方法论体系。Pearson 于 1911 年在伦敦大学学院创立了世界上第一个统计学系,并长期担任《生物计量学》(Biometrika) 期刊主编,培养了一代数理统计学家。他所发展的"生物计量学派"以大规模数据分析、频率主义和严格数学化为特征,与后来 R. A. Fisher 的推断范式形成了统计学史上最有影响力的学术竞合。
生平与学术历程
Pearson 生于伦敦,父亲是御用大律师。早年就读于剑桥大学国王学院,师从著名历史学家 Lord Acton,取得数学学士学位后游学德国,深受康德哲学和德国历史批判学派影响。他早年的学术兴趣极为广泛——涵盖物理学、历史学、哲学、法律甚至德国文学——这种跨学科视野后来深深烙印在他的统计方法论中。返回英国后,Pearson 在伦敦大学学院担任应用数学与力学教授,但在 1890 年代转向了生物学和进化论领域,这一转向源于他阅读了弗朗西斯·高尔顿(Francis Galton)的《自然遗传》(Natural Inheritance);高尔顿关于遗传中回归现象的统计描述令 Pearson 着迷,他随即说服自身将数学能力投入生物数据的定量分析。
1890 至 1910 年代成为 Pearson 最高产的时期,他接连发表了一系列奠定现代数理统计学基础的论文(多收录在其著作《数学对进化论的贡献》(Mathematical Contributions to the Theory of Evolution) 系列中),奠定了包括相关系数、卡方拟合优度检验和主成分分析雏形在内的诸多核心工具。他在 1911 年获得高尔顿遗产资助成立了高尔顿优生学实验室和统计学系,并招募了包括威廉·戈塞特("Student")在内的杰出学者。值得一提的是,Pearson 与后来崛起的 R. A. Fisher 之间爆发了长达数十年的统计方法之争,涉及自由度、最大似然法和卡方检验的正确使用等核心议题,这场争论是整个科学史上最著名的学术冲突之一,也推动了统计学理论的快速成熟。
积矩相关系数
Pearson 最广为人知的贡献当属 Pearson 积矩相关系数(Pearson Product-Moment Correlation Coefficient),通常记为 。该统计量定义如下:设有 对观测值 ,其样本均值为 ,则
该系数衡量两个连续变量之间线性相关性的强度与方向:, 表示完全正线性相关, 表示完全负线性相关, 表示无线性相关(但可能存在非线性关系)。积矩相关系数是协方差标准化后的表达,其核心思想——将每个变量距离其均值的偏差(残差)乘积加总并除以标准差乘积——源自 Pearson 对高尔顿"回归线"概念的数学形式化。高尔顿用散点图定性描述了回归现象,却未给出精确的统计量;Pearson 则以最小二乘和代数推导赋予其严谨形式,从而将相关性从模糊直觉提升为可计算、可检验的数学概念。这一贡献的重要性远超技术公式本身:它首次为科学提供了统一度量——一个学科中两种现象、两个测量值之间关联程度的通用语言,深刻影响了此后心理学、社会科学、医学和经济学中的实证研究范式。
Pearson 还为相关系数的抽样分布做出了开创性工作:在二元正态、零相关假设下推导了 的分布近似,并提出了检验 的 t 统计量,奠定了相关性检验的理论基础。
卡方拟合优度检验
Pearson 在 1900 年发表的论文《关于判断给定偏离系统与随机抽样假设之间可合理预期偏差的标准》(On the Criterion\ldots)中提出了卡方检验(Chi-Square Test),这是推断统计学中第一个正式的拟合优度检验。其基本构造为:设观测频数为 ,根据零假设计算的理论/期望频数为 ,则检验统计量
在大样本下近似服从自由度为 的卡方分布(其中 为从数据估计的参数个数)。Pearson 不仅构造了该统计量,还论证了其在零假设下的极限分布就是 分布——这是统计推断史上的里程碑,因为它首次提供了一个通用的、分布导向的检验框架:研究者只需对比观测与期望的差异,查表即可做出概率判断。
卡方检验的革命性在于其普适性:无论是检验遗传学中的孟德尔比例 3:1、评估骰子是否公平、检测两个分类变量间的独立性(列联表),还是后续发展的卡方自动交互检测,均可统一纳入该框架。Pearson 本人将其率先应用于多项实验数据的分析,包括著名的随机行走、骰子实验和灵学(心灵现象)的统计批判。
值得注意的是,Pearson 与 Fisher 围绕卡方检验的自由度问题爆发了著名争论:Pearson 坚持自由度为 ,而 Fisher 指出当参数从数据估计时需进一步扣除被估参数个数 ,从而自由度应取 。Fisher 的修正在统计实践中被广泛采纳,但 Pearson 的原初构造和分布推导依然是整个框架的逻辑起点。
矩估计法
Pearson 在 1894--1902 年间系统发展了矩估计法(Method of Moments),用以从样本数据估计概率分布的参数。其基本思想简洁而有力:令样本矩等于对应的总体矩,从而建立关于未知参数的方程组。例如,若总体分布有参数 ,其一阶总体矩 、二阶总体矩 ,则求解
即可获得参数估计 。矩估计法的优势在于:无需完整指定分布形式的繁琐推导,计算直接,且在大样本下一致。尽管 R. A. Fisher 后来提出的最大似然估计在效率上通常更优(似然估计的渐近方差达到 Cramér-Rao 下界),矩估计却在以下场景中保持了不可替代的实用性:作为似然估计的迭代初值;当日志似然函数难以解析求解时提供近似解;以及作为经济学中广义矩方法(Hansen, 1982)的思想先驱——后者构成了现代宏观经济学和金融学计量估计的核心框架,GMM 本质上正是矩条件思想的泛化。
Pearson 分布族
为应对实际数据中存在偏度和峰度的非正态分布,Pearson 提出了著名的Pearson 分布族——通过微分方程
统一描述了包括正态分布、伽马分布、贝塔分布和 t 分布等在内的十二种分布类型。该体系为 Excel、SPSS 等后继软件中的自动分布拟合功能提供了理论基石。
科学哲学:《科学的语法》
Pearson 的统计学框架并非纯技术性的,而是植根于其深刻的科学哲学信念。他在 1892 年出版的《科学的语法》(The Grammar of Science)中系统阐述了反形而上学、经验主义和频率主义的认识论立场:科学不是对某种不可知的"物自体"的推测,而是对感觉经验的系统化描述与经济化概括;科学定律本质上是对现象序列的概括,而非宿命论的因果法则。这一立场直接引向了其统计学的核心信条——概率是经验频率的极限,统计规律不是确定性的,而是对集体现象的概括——这与当时物理学中出现的统计力学方向相呼应,后来由罗纳德·费舍尔和杰尔吉·内曼等人进一步发展为频率学派的完整体系。
争议与遗产
Pearson 的学术遗产复杂而多面:他既是现代统计方法的缔造者,也是争议缠身的人物。他与高尔顿一样,是优生学的积极倡导者,用其统计工具论证遗传改良论,这在其身后受到广泛批判。他与 R. A. Fisher 的长期学术对立——涉及卡方自由度、最大似然与矩估计的优劣——虽充满个人恩怨,却在客观上加速了统计推断理论的分化和成熟。他执掌《生物计量学》期刊长达 35 年,保持着几乎一人审稿的风格,在保护统计严谨性的同时也不可避免地压制了部分新思想。
然而,Pearson 为后世留下的工具——相关系数 、卡方检验 、矩估计、Pearson 分布族——至今仍是世界各地统计课程的核心内容,也是实证经济学、心理学、医学和机器学习的日常操作。正如现代统计学家所公认的:如果说 Gauss 和 Laplace 为十九世纪的误差理论确立了基础,那么 Karl Pearson 则使统计学成为二十世纪所有经验科学不可或缺的方法论支柱。