ARTICLE
线性判别分析
线性判别分析 线性判别分析(Linear Discriminant Analysis, LDA)由 Ronald Fisher 于1936年提出,是一种经典的统计分类与降维方法。其核心思想是寻找一个线性投影方向,使得不同类别在投影空间中的类间分离程度最大化、类内离散程度最小化。LDA 在信用评分、破产预测、人脸识别和市场细分等领域有广泛应用,与逻辑回归和主成
线性判别分析
线性判别分析(Linear Discriminant Analysis, LDA)由 Ronald Fisher 于1936年提出,是一种经典的统计分类与降维方法。其核心思想是寻找一个线性投影方向,使得不同类别在投影空间中的类间分离程度最大化、类内离散程度最小化。LDA 在信用评分、破产预测、人脸识别和市场细分等领域有广泛应用,与逻辑回归和主成分分析(PCA)既有密切联系又存在本质区别。LDA 之所以在统计学习领域占据基础地位,是因为它在解析解的简洁性、计算的高效性和模型的可解释性之间取得了良好平衡。
Fisher准则与数学推导
考虑一个 类分类问题,数据集为 ,其中 ,。LDA 的目标是寻找投影向量 ,使得投影后的数据 在各类之间尽可能分离、在各类内部尽可能聚集。
定义类间散度矩阵(Between-class scatter matrix)和类内散度矩阵(Within-class scatter matrix):
其中 和 分别为第 类的均值向量和样本量, 为全局均值。Fisher 准则最大化以下瑞利商(Rayleigh quotient):
该最大化问题等价于求解广义特征值问题 。当 可逆时,二分类情形的最优投影方向解析式为 。这一简洁表达式揭示了 LDA 的核心直觉:投影方向应沿着去除了类内协方差影响后的类均值差异方向。从几何角度看,Fisher 准则等价于在原始空间中寻找一条直线,使得各类数据在该直线上的投影尽可能远离,同时每类内部的投影点尽可能集中。
概率生成模型视角
LDA 的另一重要视角源自概率生成模型。假设每个类别的类条件概率密度服从多元正态分布,且各类享有相同的协方差矩阵:。根据贝叶斯定理,后验概率为:
取对数并消去公共项后,得到线性判别函数(linear discriminant function):
该函数是 的线性函数——这正是"线性判别分析"名称的由来。样本 被分配到使 最大的类别,而任意两类之间的决策边界由 给出,在特征空间中表现为一条超平面。这一概率框架的优点是自然地处理了先验信息:当某些类别的先验概率较高时,决策边界会向先验较低的类别偏移,体现贝叶斯决策理论中的最优分类原则。
LDA 与 PCA 的对比
主成分分析(PCA)是无监督方法,寻找方差最大的投影方向,完全不考虑类别标签;LDA 是监督方法,直接以类别可分性为优化目标。PCA 追求的是数据重构的最优性——保留全局变异的最大化,而 LDA 追求的是类别区分的最优性——最大化可分性。当数据包含明确的类别结构时,LDA 在降维和分类任务上通常优于 PCA。一个经典的例子是人脸识别中的 Fisherfaces 算法:该算法先用 PCA 降维以消除协方差矩阵的奇异性,再以 LDA 提取具有判别力的特征,最终取得比单纯使用 PCA(Eigenfaces)显著更优的分类效果。
多类降维与维度选择
对于 类问题, 的秩至多为 ,因此 LDA 最多可找到 个有判别力的线性方向。这一特性使 LDA 天然地将高维数据降至 维空间,成为一种内置降维功能的监督学习方法。在实际应用中,常根据广义特征值的大小选择前若干个判别方向,这些方向按判别能力从大到小排列。例如在三类问题中,即使原始特征数 很大,LDA 也只会产生两个判别方向,极大地简化了后续分析和可视化。
模型估计与实操要点
实践中,均值向量 、公共协方差矩阵 和先验概率 均通过样本估计。当特征维度 较大时, 的估计可能不稳定,常用方法包括正则化判别分析(Regularized DA, RDA)或引入收缩估计量。LDA 对异常值较为敏感,因为均值和协方差的估计均受极端值影响。当各类协方差矩阵不等时,应使用二次判别分析(QDA),其决策边界退化为二次曲面。在样本量较小的情况下,留一交叉验证(LOOCV)常被用于评估 LDA 的分类性能,以避免过拟合导致的乐观偏误。
在经济学与金融学中的应用
LDA 在经济学和金融学中有着悠久的应用历史。在信用评分领域,LDA 基于借款人的财务比率(资产负债率、流动比率、利息保障倍数等)构建线性判别函数,将申请人划分为"好客户"与"坏客户"两类。在破产预测中,Altman 的 Z-score 模型虽然形式上采用多元判别分析,但其方法论根源可追溯至 Fisher 的线性判别思想。在市场状态分类中,LDA 被用于识别牛熊市阶段,帮助投资者制定择时策略。在消费者行为研究中,LDA 可基于人口统计特征和消费习惯对用户进行细分,为精准营销提供支持。
局限性
- 正态性假设:当数据严重偏离多元正态分布时,分类效果显著下降,此时可考虑非参数判别分析。
- 等协方差假设:违背时需改用 QDA 或灵活判别分析(Flexible DA)。
- 线性边界:对高度非线性可分问题需借助核 Fisher 判别分析(Kernel FDA)等扩展方法。
- 高维困境: 时协方差矩阵奇异,需借助正则化或 PCA 预降维处理。
- 异常值敏感:均值和协方差矩阵的估计均易受极端值干扰,导致投影方向失真。
总体而言,LDA 以其解析解、低计算成本和良好的可解释性,在统计分类方法中占据基础地位,是理解更高级判别模型(如 QDA、正则化判别分析和核 Fisher 判别分析)的理论起点。