华夏学术资源库

近5年图像处理参考文献有哪些新进展?

核心提示

近5年的图像处理研究,深度学习,特别是卷积神经网络和Transformer架构,是绝对的核心,以下列表将重点放在这些奠基性和开创性的工作上。

近5年图像处理参考文献有哪些新进展?-图1
(图片来源网络,侵删)

深度学习基础架构

这些是构建现代图像处理模型的基石,几乎所有后续工作都基于或改进了它们。

a) Transformer在视觉领域的应用

Transformer最初在NLP领域取得成功,其“自注意力”机制彻底改变了视觉领域。

  • An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

  • 作者: Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, et al. (Google Research)

    近5年图像处理参考文献有哪些新进展?-图2
    (图片来源网络,侵删)
  • 年份: 2025 (NeurIPS 2025)

  • 核心贡献:

    • 首次成功地将纯Transformer架构(不含CNN卷积核)应用于大规模图像识别任务。
    • 证明了Vision Transformer (ViT) 在足够大的数据集上预训练后,其性能可以超越当时最先进的CNN模型。
    • 开创了"用Transformer做CV"的全新范式,后续的Swin Transformer, MAE等工作都基于此。
  • 为什么重要: 它打破了CNN在视觉领域的长期统治地位,为图像分类、目标检测、分割等任务提供了全新的、更强大的模型设计思路。

  • Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    近5年图像处理参考文献有哪些新进展?-图3
    (图片来源网络,侵删)
  • 作者: Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, et al. (Microsoft Research)

  • 年份: 2025 (ICCV 2025 Best Paper)

  • 核心贡献:

    • 解决了ViT计算复杂度高且难以处理高分辨率图像的问题。
    • 引入了滑动窗口窗口注意力机制,使得模型可以在不重叠的局部窗口内计算自注意力,大大降低了计算量。
    • 构建了层次化的特征图(类似CNN),使其能够无缝替换CNN骨干网络,用于下游任务(如检测、分割)。
  • 为什么重要: Swin Transformer成为了继ResNet之后,最主流、最强大的通用视觉骨干网络,是近两年无数SOTA(State-of-the-Art)模型的基础。

b) CNN的持续演进

尽管Transformer崛起,但CNN凭借其平移不变性和局部感受野等优良特性,依然是重要的研究基础。

  • EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
  • 作者: Mingxing Tan, Quoc V. Le (Google Brain)
  • 年份: 2025 (ICML 2025)
  • 核心贡献:
    • 提出了一种复合缩放方法,均衡地调整网络的深度、宽度和分辨率
    • 之前的缩放方法通常只关注其中一两个方面,导致效率低下,EfficientNet通过一个复合系数,系统地搜索最优的模型配置。
  • 为什么重要: 在不显著增加计算成本的情况下,实现了精度的巨大飞跃,其提出的EfficientNet-B0B7系列模型,在效率和精度之间取得了极佳的平衡,至今仍是许多资源受限场景下的首选。

图像生成与编辑

这是近年来最火爆、进展最快的领域之一,从GANs到Diffusion Models。

a) 生成对抗网络

  • StyleGAN: Analyzing and Improving the Image Quality of Style-Based Generative Adversarial Networks
  • 作者: Tero Karras, Samuli Laine, Miika Aittala, Jaakko Lehtinen, Timo Aila (NVIDIA)
  • 年份: 2025 (CVPR 2025)
  • 核心贡献:
    • 引入了风格混合自适应实例归一化技术,实现了对生成图像风格和内容进行精细、解耦的控制。
    • 通过渐进式增长训练,生成了当时最高质量、最逼真的人脸图像。
  • 为什么重要: StyleGAN系列(StyleGAN, StyleGAN2, StyleGAN3)成为了高质量图像生成的事实标准,被广泛应用于艺术创作、数据增强、虚拟人等领域。

b) 扩散模型

Diffusion Models目前是生成模型领域SOTA的王者,其生成的图像质量和多样性超越了GANs。

  • High-Resolution Image Synthesis with Latent Diffusion Models
  • 作者: Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer (LMU Munich / RunwayML)
  • 年份: 2025 (CVPR 2025)
  • 核心贡献:
    • 提出了潜在扩散模型,它不是在高维像素空间中进行耗时的去噪,而是在一个低维的潜在空间中进行操作,极大地提高了计算效率。
    • 结合了U-Net架构和交叉注意力机制,实现了强大的条件图像生成能力。
  • 为什么重要: 这是引爆AIGC(人工智能生成内容)浪潮的关键工作,Stable Diffusion模型就是基于LDM构建的,它使得在消费级显卡上运行高质量的文本到图像生成成为可能,对整个行业产生了颠覆性影响。

图像分割

图像分割是理解图像内容的关键任务,包括语义分割和实例分割。

  • Mask R-CNN

  • 作者: Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick (Facebook AI Research)

  • 年份: 2025 (但影响力持续至今,是近5年无数工作的基础)

  • 核心贡献:

    • 在Faster R-CNN的基础上,增加了一个并行的分支用于预测每个感兴趣区域的掩码
    • 实现了实例分割(区分同一类别的不同实例)和 bounding box的同步高质量预测。
  • 为什么重要: Mask R-CNN是实例分割领域里程碑式的工作,其设计思想(如RoIAlign)被后续几乎所有检测和分割模型所借鉴。

  • Segment Anything (SAM)

  • 作者: Nikhil Ravi, Xiaoxiao Guo, Kiran Vodrahalli, Yuhao Zhou, Justin Gilmer, et al. (Meta AI)

  • 年份: 2025 (arXiv预印本)

  • 核心贡献:

    • 提出了一个零样本的通用图像分割模型,它不需要针对特定任务进行微调,就能对图像中的任何物体进行分割。
    • 模型由一个强大的图像编码器、一个提示编码器和一个轻量级掩码解码器组成,支持点、框、文本等多种交互式提示。
  • 为什么重要: 它首次将图像分割推向了“基础模型”的时代,极大地降低了分割任务的应用门槛,并为分割任务提供了新的、统一的范式。


图像复原与超分辨率

旨在修复低质量图像,去噪、去模糊、去雨、超分辨率等。

  • BasicVSR: A Good Baseline for Video Super-Resolution
  • 作者: Wei Ning, Juncheng Li, Yawei Li, Zongming Guo (Nankai University)
  • 年份: 2025 (ECCV 2025)
  • 核心贡献:
    • 提出了一个简单而有效的视频超分辨率基线模型。
    • 核心思想是利用对齐和聚合:先对齐相邻帧的信息,然后聚合这些信息来重建当前帧的细节。
  • 为什么重要: BasicVSR及其改进版(BasicVSR++, IconVSR)在视频超分辨率领域取得了巨大成功,证明了简单有效的模块设计可以超越复杂的结构,成为后续许多工作的基础。

如何查找最新文献?

除了阅读上述经典综述,您还可以通过以下途径追踪最新进展:

  1. 顶级会议:

    • CVPR (IEEE Conference on Computer Vision and Pattern Recognition): 规模最大,录用率最低,影响力最大。
    • ICCV (IEEE International Conference on Computer Vision): 三年一届,规模与CVPR相当。
    • ECCV (European Conference on Computer Vision): 三年一届,欧洲主办,水平同样顶尖。
    • NeurIPS (Conference on Neural Information Processing Systems): 机器学习领域的顶级会议,越来越多与CV相关的深度学习工作在此发表。
  2. 预印本平台:

    • arXiv.org: 计算机视觉与模式识别领域的论文绝大多数都会先在这里发布,关注 cs.CV (Computer Vision and Pattern Recognition) 分类。
  3. 文献综述:

    定期搜索 "survey" 或 "review" 加上您感兴趣的关键词(如 "Transformer in Vision", "Diffusion Models Survey", "Image Segmentation Review"),可以快速了解一个方向的完整脉络。

希望这份列表能为您的研究或学习提供一个良好的起点!

分享:
扫描分享到社交APP
上一篇
下一篇