ARTICLE
判别分析
判别分析(Discriminant Analysis)是一种用于分类的多元统计方法,其目标是根据已知类别的样本数据建立判别规则,从而将新观测对象归入预先定义的组别之中。判别分析的核心思想是通过寻找能够最大化组间差异、最小化组内差异的线性或非线性组合函数,实现对类别归属的精准推断。该方法最早由罗纳德·费希尔(Ronald Fisher)于1936年在解决鸢尾花
判别分析(Discriminant Analysis)是一种用于分类的多元统计方法,其目标是根据已知类别的样本数据建立判别规则,从而将新观测对象归入预先定义的组别之中。判别分析的核心思想是通过寻找能够最大化组间差异、最小化组内差异的线性或非线性组合函数,实现对类别归属的精准推断。该方法最早由罗纳德·费希尔(Ronald Fisher)于1936年在解决鸢尾花分类问题时提出,至今已在生物分类、医学诊断、信用评级、模式识别等领域得到广泛应用。
基本原理
判别分析建立在概率框架之上。假设总体可划分为 个互不相交的类别 ,每个类别具有先验概率 和类条件概率密度 。根据贝叶斯定理,给定观测值 属于第 类的后验概率为:
贝叶斯分类规则将 判入后验概率最大的类别。当各类的先验概率相等时,该规则等价于最大化似然函数 。判别分析的关键在于如何构建类条件密度函数的估计,不同的假设条件衍生出了不同的判别方法。
费希尔线性判别分析
费希尔线性判别分析(Fisher's Linear Discriminant Analysis, LDA)是判别分析中最经典的方法。费希尔提出的思路并非直接计算概率,而是寻找一个线性组合 ,使得投影后各类之间的均值差异相对于组内方差达到最大化。这一优化目标可以表述为:
其中 为组间散度矩阵, 为组内散度矩阵。该优化问题的解对应于 的最大特征值对应的特征向量。当类别数为 时,最多可得到 个判别方向,将高维数据降至低维判别空间进行分析。
在分类实践中,LDA 假设各类服从多元正态分布且协方差矩阵相同。在此假设下,判别边界是线性的,判别函数可写为:
分类时选择使 最大的类别。LDA 的线性特性使其具有计算效率高、可解释性强的优点,尤其适合样本量较小、变量较多的高维分类问题。
二次判别分析
二次判别分析(Quadratic Discriminant Analysis, QDA)放松了 LDA 中各类协方差矩阵相等的假设。当各类协方差矩阵 彼此不同时,判别边界由线性超平面变为二次曲面。QDA 的判别函数为:
QDA 能够拟合更为灵活的类别边界,在各类分布形态差异显著时分类效果优于 LDA。然而,由于需要估计每个类别的协方差矩阵,QDA 的参数数量与变量数的平方成正比,因此在变量较多或样本量有限时容易出现过拟合。针对这一缺陷,正则化判别分析(Regularized Discriminant Analysis, RDA)通过在 LDA 和 QDA 之间引入收缩参数,在模型灵活性与估计稳定性之间寻求平衡。
模型假设与诊断
判别分析的有效性依赖于若干关键假设。LDA 要求各类服从多元正态分布且协方差矩阵同质;QDA 仅要求正态分布假设,但允许协方差矩阵不同。当正态性假设被违反时,参数估计可能产生偏误,分类准确率随之下降。实践中常用 Box's M 检验对协方差同质性进行检验,用多元正态性检验(如 Mardia 检验)评估分布假设的成立程度。当正态假设明显不成立时,可采用非参数判别方法,如核密度判别分析和 k 近邻判别分析,这些方法不依赖特定的分布形式,但在小样本条件下效率较低。
应用场景
判别分析在众多学科中具有广泛的应用价值。在生物学领域,费希尔最初用花瓣和花萼的长度与宽度将鸢尾花分为三个物种,这一经典案例至今仍是判别分析教学的标准素材。在医学诊断中,医生根据患者的各项检验指标判别其患有某种疾病的风险类别,线性判别函数可帮助确定最具鉴别力的生物标志物组合。在金融领域,信用评分模型利用借款人的收入、负债、信用历史等特征判别其违约风险的高低,银行据此决定是否发放贷款及贷款利率。在市场研究中,判别分析被用于消费者细分——根据购买行为、人口统计变量和心理特征将消费者分入不同的目标群体,以便制定针对性的营销策略。
与现代机器学习的关系
判别分析在统计学习理论中占据着承上启下的特殊位置。从生成式模型的角度看,LDA 和 QDA 是最具代表性的生成式分类器——它们显式地对各类的分布进行建模,再经由贝叶斯公式导出分类规则。这一特性使判别分析在处理小样本问题时优于许多纯判别式方法(如逻辑回归),因为它利用了额外的分布信息。从后续发展的视角看,LDA 与主成分分析(PCA)共同构成了线性降维技术的两大支柱,而 QDA 的思想则深刻影响了混合判别分析(MDA)和灵活判别分析(FDA)等更现代的方法。支持向量机(SVM)中的最大间隔分类思想与费希尔准则在数学上存在着深刻的联系,两者均可通过核技巧推广至非线性情形。
局限性
尽管判别分析具有清晰的概率解释和良好的计算效率,它也存在不可忽视的局限。首先,LDA 和 QDA 对离群值高度敏感,因为样本均值和协方差矩阵的估计极易受极端值影响。其次,当预测变量个数()接近或超过样本量()时,协方差矩阵的估计变得不稳定甚至不可逆,此时需要借助降维或正则化手段。此外,判别分析假定预测变量为连续变量且服从(近似)正态分布,对分类变量或高度偏态的变量处理能力有限。最后,判别分析本质上是一种生成式模型,其分类性能依赖于模型假设的准确程度,当实际分布与假设严重不符时,其表现可能不如逻辑回归等判别式方法稳健。