ARTICLE

计算机视觉 (Computer Vision)

计算机视觉 (Computer Vision) 计算机视觉 (Computer Vision) 是人工智能的一个子领域,致力于使计算机通过对数字图像和视频的分析来自动获取场景的高层语义理解。其核心任务可归纳为从二维像素阵列中重建三维世界的几何结构、识别场景中的物体和活动,以及推理不同实体之间的空间和因果关系。计算机视觉融合了图像处理、模式识别、计算几何和机器

浏览 0 更新 2026-05-27

计算机视觉 (Computer Vision)

计算机视觉 (Computer Vision) 是人工智能的一个子领域,致力于使计算机通过对数字图像和视频的分析来自动获取场景的高层语义理解。其核心任务可归纳为从二维像素阵列中重建三维世界的几何结构、识别场景中的物体和活动,以及推理不同实体之间的空间和因果关系。计算机视觉融合了图像处理模式识别计算几何机器学习,应用覆盖自动驾驶、医学影像诊断、工业质检和增强现实。

方法范式:从手工特征到深度学习

计算机视觉的历史可大致划分为两个范式。经典范式(约 2000–2014)依赖手工设计的特征检测器和描述符,如 Harris 角点检测、SIFT(尺度不变特征变换)和 HOG(方向梯度直方图)。其工作流程为特征检测、特征描述、特征匹配和几何验证的级联流水线,每个阶段由人工显式编码不变性——尺度不变性、旋转不变性和光照不变性。

深度学习范式(2012 至今)以卷积神经网络 (CNN) 为核心,通过端到端的梯度反向传播自动学习特征的层级表示。AlexNet (2012) 在 ImageNet 竞赛中的突破性表现启动了该范式的全面替代。后续架构如 ResNet(引入残差连接使网络深度扩展至百层以上)、YOLO(一次性端到端目标检测)和 ViT(Vision Transformer,将自注意力机制引入视觉领域)持续拓展视觉感知的精度和效率边界。当前前沿方向包括:自监督学习减少对大规模人工标注的依赖、神经辐射场 (NeRF) 实现高保真的新视角合成,以及扩散模型在图像生成与编辑中的突破。

经济学应用场景

计算机视觉在经济学中的应用正快速增长。在发展经济学中,卫星图像的语义分割和夜间灯光强度分析被用于估计贫困分布、作物产量和基础设施扩散,成为传统调查统计的补充数据源。在城市经济学中,街景图像的语义分析为邻里品质、步行适宜性和房产价值评估提供了细粒度的定量指标。在劳动经济学中,视频分析用于测量工作场所的生产效率和时间利用模式。在产业组织中,货架图像识别技术被用于自动化收集零售价格和产品陈列数据,极大降低了市场势力实证研究的数据采集成本。这些应用使计算机视觉从一个纯工程学科逐渐渗透为经济学中非结构化数据分析方法体系的重要组成部分。