ARTICLE
表征学习
表征学习(Representation Learning)是机器学习中的一个核心领域,旨在自动从原始数据中学习出有效、紧凑且具有语义意义的特征表示,从而提升下游任务(如分类、回归、聚类等)的性能。与传统人工特征工程不同,表征学习通过数据驱动的方式,让模型自主发现数据中的潜在结构,无须人工定义特征提取规则。 核心动机:原始数据(如图像像素、文本词序列、图结构)
表征学习(Representation Learning)是机器学习中的一个核心领域,旨在自动从原始数据中学习出有效、紧凑且具有语义意义的特征表示,从而提升下游任务(如分类、回归、聚类等)的性能。与传统人工特征工程不同,表征学习通过数据驱动的方式,让模型自主发现数据中的潜在结构,无须人工定义特征提取规则。
核心动机:原始数据(如图像像素、文本词序列、图结构)往往维度高、噪声大且包含大量冗余信息,直接作为模型输入会导致计算开销剧增、过拟合风险升高以及泛化能力下降。表征学习通过将原始数据映射到一个低维、稠密且信息丰富的隐空间中,有效缓解了"维数灾难"问题。良好的数据表示应当保留输入数据中的关键判别信息,同时去除无关的噪声与冗余。理想的表征通常具有以下特性:低维性(用最少的维度编码最有效的信息)、稀疏性(每个样本仅激活少数特征维度)、不变性(对光照、旋转、背景等无关变换保持稳定)、等变性(对输入的可控变换在表示空间中对应相应变换)以及可解释性(每个维度对应有意义的语义概念)。
主要方法:
- 自编码器(Autoencoder)及其变体:自编码器由编码器和解码器组成,编码器将输入压缩为低维隐变量,解码器从隐变量重建原始输入,迫使隐变量捕捉数据的主要变化因素。重要变体包括:去噪自编码器(Denoising Autoencoder),通过向输入注入噪声并让模型恢复原始数据来学习鲁棒表征;稀疏自编码器(Sparse Autoencoder),通过对隐变量施加稀疏约束来鼓励表征的因子化特性;变分自编码器(VAE),引入概率框架使隐空间具有连续性和生成能力。
- 词嵌入与文本表征:Word2Vec(包括CBOW和Skip-gram两种架构)和GloVe将词语映射到低维连续向量空间中,语义相近的词在空间中彼此靠近,并能够在向量空间中进行语义类比运算(如"国王-男人+女人≈女王")。近年来,BERT、RoBERTa等预训练语言模型通过掩码语言建模和下一句预测等自监督目标,进一步实现了上下文相关的动态文本表征。
- 对比学习(Contrastive Learning):对比学习通过构造正负样本对来学习判别性表征——拉近同一样本不同增广视图(正样本对)在表示空间中的距离,同时推远不同样本(负样本对)的表示。经典方法包括SimCLR(利用数据增广生成正对,使用NT-Xent损失)、MoCo(维护动态负样本队列以保证负样本的多样性)以及CLIP(利用图文对进行跨模态对比学习),后者在零样本分类和跨模态检索任务中展现出色性能。
- 自监督学习(Self-Supervised Learning):自监督学习设计不需要人工标注的"前置任务"(pretext task),如图像旋转角度预测、拼图重组、彩色图像灰度化后着色、文本的掩码词预测等,使模型在学习过程中捕获数据的通用特征。这些预训练表征可直接迁移至下游任务,大幅降低标注成本。
- 图表示学习(Graph Representation Learning):图神经网络通过对邻域信息进行聚合和传播来学习节点或子图的嵌入表示。代表方法包括GraphSAGE(采样邻居进行归纳式学习)、GAT(引入注意力机制为不同邻居分配权重)以及GCN(基于谱图理论的卷积聚合)。图对比学习(如GraphCL)进一步将对比学习推广到图数据。
典型应用:表征学习已广泛渗透到几乎所有AI领域。在计算机视觉中,ImageNet上的预训练模型(ResNet、ViT)为图像分类、目标检测、语义分割等任务提供通用视觉表征。在自然语言处理中,BERT和GPT系列模型为机器翻译、问答系统、情感分析等提供强大的语言表征。在推荐系统中,矩阵分解和基于图的方法学习用户与物品的嵌入表示,实现个性化推荐。在生物信息学中,分子图表示学习用于药物发现和蛋白质结构预测(如AlphaFold)。在强化学习中,状态表征学习帮助智能体在高维观测中提取关键决策信息。
挑战与前沿方向:当前表征学习面临的核心挑战包括:因果表征学习(Causal Representation Learning),旨在从观测数据中发现变量之间的因果关系,从而支持跨环境分布外泛化;解耦表征学习(Disentangled Representation Learning),试图将数据的变化因子分离到独立维度中,使表征的每一维对应独立的生成因子;多模态对齐表征学习,将来自不同模态(文本、图像、语音、视频)的数据映射到统一的语义空间中,实现跨模态理解与生成;以及小样本和零样本场景下的鲁棒表征学习,降低模型对大量标注数据的依赖。
总结:表征学习是深度学习成功的关键基石。从底层边缘检测到高层语义抽象,深度神经网络的每一层本质上都在进行层级化的表征学习。随着自监督学习、对比学习和多模态对齐等技术的持续突破,表征学习正向着更通用、更少标注依赖、更强泛化能力的方向快速发展,推动人工智能迈向更高层次的智能。