ARTICLE

线性判别分析

线性判别分析线性判别分析（Linear Discriminant Analysis, LDA）由 Ronald Fisher 于1936年提出，是一种经典的统计分类与降维方法。其核心思想是寻找一个线性投影方向，使得不同类别在投影空间中的类间分离程度最大化、类内离散程度最小化。LDA 在信用评分、破产预测、人脸识别和市场细分等领域有广泛应用，与逻辑回归和主成

浏览 0 更新 2026-05-26

线性判别分析

线性判别分析（Linear Discriminant Analysis, LDA）由 Ronald Fisher 于1936年提出，是一种经典的统计分类与降维方法。其核心思想是寻找一个线性投影方向，使得不同类别在投影空间中的类间分离程度最大化、类内离散程度最小化。LDA 在信用评分、破产预测、人脸识别和市场细分等领域有广泛应用，与逻辑回归和主成分分析（PCA）既有密切联系又存在本质区别。LDA 之所以在统计学习领域占据基础地位，是因为它在解析解的简洁性、计算的高效性和模型的可解释性之间取得了良好平衡。

Fisher准则与数学推导

考虑一个 $K$ 类分类问题，数据集为 $\{(\mathbf{x}_i, y_i)\}_{i=1}^n$ ，其中 $\mathbf{x}_i \in \mathbb{R}^p$ ， $y_i \in \{1, 2, \ldots, K\}$ 。LDA 的目标是寻找投影向量 $\mathbf{w} \in \mathbb{R}^p$ ，使得投影后的数据 $z_i = \mathbf{w}^\top \mathbf{x}_i$ 在各类之间尽可能分离、在各类内部尽可能聚集。

定义类间散度矩阵（Between-class scatter matrix）和类内散度矩阵（Within-class scatter matrix）：

\mathbf{S}_B = \sum_{k=1}^K n_k (\boldsymbol{\mu}_k - \boldsymbol{\mu})(\boldsymbol{\mu}_k - \boldsymbol{\mu})^\top,\quad \mathbf{S}_W = \sum_{k=1}^K \sum_{i: y_i=k} (\mathbf{x}_i - \boldsymbol{\mu}_k)(\mathbf{x}_i - \boldsymbol{\mu}_k)^\top

其中 $\boldsymbol{\mu}_k$ 和 $n_k$ 分别为第 $k$ 类的均值向量和样本量， $\boldsymbol{\mu}$ 为全局均值。Fisher 准则最大化以下瑞利商（Rayleigh quotient）：

J(\mathbf{w}) = \frac{\mathbf{w}^\top \mathbf{S}_B \mathbf{w}}{\mathbf{w}^\top \mathbf{S}_W \mathbf{w}}

该最大化问题等价于求解广义特征值问题 $\mathbf{S}_B \mathbf{w} = \lambda \mathbf{S}_W \mathbf{w}$ 。当 $\mathbf{S}_W$ 可逆时，二分类情形的最优投影方向解析式为 $\mathbf{w}^* \propto \mathbf{S}_W^{-1} (\boldsymbol{\mu}_2 - \boldsymbol{\mu}_1)$ 。这一简洁表达式揭示了 LDA 的核心直觉：投影方向应沿着去除了类内协方差影响后的类均值差异方向。从几何角度看，Fisher 准则等价于在原始空间中寻找一条直线，使得各类数据在该直线上的投影尽可能远离，同时每类内部的投影点尽可能集中。

概率生成模型视角

LDA 的另一重要视角源自概率生成模型。假设每个类别的类条件概率密度服从多元正态分布，且各类享有相同的协方差矩阵： $\mathbf{x} \mid y=k \sim \mathcal{N}(\boldsymbol{\mu}_k, \mathbf{\Sigma})$ 。根据贝叶斯定理，后验概率为：

P(y=k \mid \mathbf{x}) = \frac{\pi_k \, \phi_k(\mathbf{x})}{\sum_{j=1}^K \pi_j \, \phi_j(\mathbf{x})}

取对数并消去公共项后，得到线性判别函数（linear discriminant function）：

\delta_k(\mathbf{x}) = \mathbf{x}^\top \mathbf{\Sigma}^{-1} \boldsymbol{\mu}_k - \frac{1}{2} \boldsymbol{\mu}_k^\top \mathbf{\Sigma}^{-1} \boldsymbol{\mu}_k + \log \pi_k

该函数是 $\mathbf{x}$ 的线性函数——这正是"线性判别分析"名称的由来。样本 $\mathbf{x}$ 被分配到使 $\delta_k(\mathbf{x})$ 最大的类别，而任意两类之间的决策边界由 $\delta_k(\mathbf{x}) = \delta_j(\mathbf{x})$ 给出，在特征空间中表现为一条超平面。这一概率框架的优点是自然地处理了先验信息：当某些类别的先验概率较高时，决策边界会向先验较低的类别偏移，体现贝叶斯决策理论中的最优分类原则。

LDA 与 PCA 的对比

主成分分析（PCA）是无监督方法，寻找方差最大的投影方向，完全不考虑类别标签；LDA 是监督方法，直接以类别可分性为优化目标。PCA 追求的是数据重构的最优性——保留全局变异的最大化，而 LDA 追求的是类别区分的最优性——最大化可分性。当数据包含明确的类别结构时，LDA 在降维和分类任务上通常优于 PCA。一个经典的例子是人脸识别中的 Fisherfaces 算法：该算法先用 PCA 降维以消除协方差矩阵的奇异性，再以 LDA 提取具有判别力的特征，最终取得比单纯使用 PCA（Eigenfaces）显著更优的分类效果。

多类降维与维度选择

对于 $K$ 类问题， $\mathbf{S}_B$ 的秩至多为 $K-1$ ，因此 LDA 最多可找到 $\min(K-1, p)$ 个有判别力的线性方向。这一特性使 LDA 天然地将高维数据降至 $K-1$ 维空间，成为一种内置降维功能的监督学习方法。在实际应用中，常根据广义特征值的大小选择前若干个判别方向，这些方向按判别能力从大到小排列。例如在三类问题中，即使原始特征数 $p$ 很大，LDA 也只会产生两个判别方向，极大地简化了后续分析和可视化。

模型估计与实操要点

实践中，均值向量 $\boldsymbol{\mu}_k$ 、公共协方差矩阵 $\mathbf{\Sigma}$ 和先验概率 $\pi_k = n_k / n$ 均通过样本估计。当特征维度 $p$ 较大时， $\mathbf{\Sigma}$ 的估计可能不稳定，常用方法包括正则化判别分析（Regularized DA, RDA）或引入收缩估计量。LDA 对异常值较为敏感，因为均值和协方差的估计均受极端值影响。当各类协方差矩阵不等时，应使用二次判别分析（QDA），其决策边界退化为二次曲面。在样本量较小的情况下，留一交叉验证（LOOCV）常被用于评估 LDA 的分类性能，以避免过拟合导致的乐观偏误。

在经济学与金融学中的应用

LDA 在经济学和金融学中有着悠久的应用历史。在信用评分领域，LDA 基于借款人的财务比率（资产负债率、流动比率、利息保障倍数等）构建线性判别函数，将申请人划分为"好客户"与"坏客户"两类。在破产预测中，Altman 的 Z-score 模型虽然形式上采用多元判别分析，但其方法论根源可追溯至 Fisher 的线性判别思想。在市场状态分类中，LDA 被用于识别牛熊市阶段，帮助投资者制定择时策略。在消费者行为研究中，LDA 可基于人口统计特征和消费习惯对用户进行细分，为精准营销提供支持。

局限性

正态性假设：当数据严重偏离多元正态分布时，分类效果显著下降，此时可考虑非参数判别分析。
等协方差假设：违背时需改用 QDA 或灵活判别分析（Flexible DA）。
线性边界：对高度非线性可分问题需借助核 Fisher 判别分析（Kernel FDA）等扩展方法。
高维困境： $p \gg n$ 时协方差矩阵奇异，需借助正则化或 PCA 预降维处理。
异常值敏感：均值和协方差矩阵的估计均易受极端值干扰，导致投影方向失真。

总体而言，LDA 以其解析解、低计算成本和良好的可解释性，在统计分类方法中占据基础地位，是理解更高级判别模型（如 QDA、正则化判别分析和核 Fisher 判别分析）的理论起点。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。