程序员求职经验分享与学习资料整理平台

网站首页 > 文章精选 正文

cvpr 2024|超越16帧:一种对比预训练视频优先编码器的简单方法

balukai 2025-05-11 14:09:09 文章精选 2 ℃


A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames

研究背景

理解长时间、真实世界的视频需要建模长范围的视觉依赖关系。然而,现有的视频理解模型在处理长时间视频时面临挑战,尤其是在硬件内存限制下难以处理大量视频帧。此外,很多先进的模型依赖于从图像到视频的迁移学习,这种方法在处理复杂视觉依赖时可能效果不佳。

研究意义

本文提出了一种简单而有效的方法,通过对比预训练来扩展视频编码器的能力,使其能够处理长达数分钟的视频内容。这种方法不仅克服了内存瓶颈,还在多个基准测试上取得了优于现有模型的表现,特别是对于具有长范围时间依赖性的视频任务。

文献综述

近年来,视觉语言模型在理解图像或短视频方面取得了显著成果,但这些模型主要依赖于预先训练好的图像编码器,并通过后期时间融合来处理视频。这种方法的局限性在于缺乏早期时间聚合的视频优先编码器,这可能限制了处理复杂视觉依赖的能力。此外,尽管有一些工作试图解决视频模型的时间可扩展性问题,但这些方法大多仍局限于短视频。

具体方法

本文提出了一个两阶段的训练过程:

对比预训练:首先,通过噪声对比估计(NCE)损失对视频编码器进行预训练。在这个过程中,采用了时空联合注意力机制,而不是传统的帧级编码,以提高对长时间依赖的建模能力。

视频到文本的微调:然后,将预训练的视频编码器与预先训练好的语言模型(LM)和视觉适配器层结合,用于视频到文本的生成任务(如视频摘要和问答)。

为了克服内存瓶颈,本文系统地分析了多种内存高效的方法,包括因子化注意力、参数高效的图像到视频适应、输入掩码和多分辨率块化。最终发现,在对比预训练过程中简单地掩蔽高达75%的视频内容是一种非常有效的方法,可以在几乎不损失性能的情况下显著减少内存消耗,并扩展到处理更长的视频。


图1:训练步骤概述

描述

  • 两步训练过程对比预训练:首先,通过噪声对比估计(NCE)损失对视频编码器进行预训练。这个过程包括图像到短视频的预训练和短视频到长视频的预训练。
  • 视频到文本的微调:使用预训练的视频编码器和预先训练好的语言模型(LM),以及视觉适配器层,进行视频到文本的生成任务(如视频摘要和问答)。

关键组件

  • 视频ViT(Joint Space-Time Attention):使用时空联合注意力的视频视觉Transformer。
  • 预训练LM:预先训练好的大型语言模型。
  • 交叉注意力:在视频编码器和语言模型之间建立交叉注意力机制。
  • 时间池化:对视频表示进行时间池化,以减少帧数的影响。

图2:不同骨干网络的性能与内存消耗

描述

  • X轴:训练时的内存消耗(GB)。
  • Y轴:文本到视频的召回率@1(%)。
  • 曲线:展示了不同视频编码器骨干网络(联合时空注意力、因子化时空注意力、帧级编码)在不同输入掩码比例下的性能与内存消耗权衡。

关键发现

  • 联合时空注意力:在高达75%的输入掩码比例下仍能保持较好的性能,显示出对噪声输入的鲁棒性。
  • 帧级编码因子化时空注意力:随着掩码比例的增加,性能显著下降。

图3:不同模型规模的内存增加与性能下降

描述

  • 左侧柱状图:从基础模型(ViT-B)到大型模型(ViT-L)的内存增加百分比。
  • 右侧柱状图:在不同模型规模下,各方法相对于无掩码和完全微调方法的性能下降百分比。

关键发现

  • 联合时空注意力:在模型规模增加时,内存模式与帧级编码相似,但性能下降较小。
  • 因子化时空注意力:由于额外的时间参数,内存开销显著增加。
  • 参数高效方法(如MLP适配器、LoRA):虽然内存要求随模型大小扩展得更好,但无法实现竞争性能。

图4:不同输入采样方法的性能与内存消耗

描述

  • X轴:训练时的内存消耗(GB)。
  • Y轴:文本到视频的召回率@1(%)。
  • 曲线:比较了不同输入采样方法(高输入掩码比例、粗粒度时间块化、粗粒度空间块化、TubeViT)的性能与内存消耗权衡。

关键发现

  • 高输入掩码比例联合时空注意力结合使用时,提供了最强的内存/性能曲线。
  • 粗粒度时间块化对具有丰富时间依赖性的基准测试(如YouCook2、VATEX)的负面影响更大。
  • TubeViT在多个基准测试上表现出一定的性能下降,但由于使用多个卷积核,内存要求更高。

图5:扩展到更长视频的内存消耗

描述

  • X轴:短到长视频对比预训练时的内存消耗(GB)。
  • Y轴:视频到文本微调时的内存消耗(GB)。
  • 颜色编码:不同模型变体在YouCook2全长视频摘要任务上的Rouge-L得分。

关键发现

  • LONG VIVIT:通过对比预训练扩展到更长视频,并在视频到文本微调时保持较低的内存消耗,同时显著提高了性能。
  • 输入掩码与最后四层调优:结合使用可以进一步减少内存消耗,而不影响性能。


表1:不同视觉骨干网络的性能比较

描述

  • 比较了不同视觉骨干网络(联合时空ViViT、因子化时空ViViT、帧级编码+平均池化、帧级编码+注意力池化)在多个短视频基准测试上的性能。

关键发现

  • 联合时空ViViT:在大多数基准测试上表现出色,尤其是在具有丰富时间依赖性的基准测试上。
  • 注意力池化:在帧级编码上添加注意力池化并没有显著提高性能。

表2:短视频基准测试上的主要结果

描述

  • 比较了三种模型变体(IMAGE VIT-L、SHORT VIVIT-L、Efficient SHORT VIVIT-L)以及两种最先进的图像优先模型(VideoCoCa-L、Flamingo-3B)在多个短视频基准测试上的性能。

关键发现

  • SHORT VIVIT-L:在所有基准测试上均表现出色,甚至在具有丰富时间依赖性的基准测试上超越了更大的模型。
  • Efficient SHORT VIVIT-L:通过75%的输入掩码实现了显著的内存节省,同时性能几乎没有下降。

表3:长视频理解基准测试上的结果

描述

  • 比较了不同模型变体(IMAGE VIT、SHORT VIVIT、LONG VIVIT)以及基于LLM的模块化方法在多个长视频理解基准测试上的性能。

关键发现

  • LONG VIVIT:在具有丰富时间依赖性的基准测试(如YouCook2、EgoSchema)上显著优于其他方法,包括使用更大LLM的模块化方法。
  • 基于LLM的模块化方法:在具有较少时间依赖性的基准测试(如ActivityNet)上表现良好,但在具有丰富时间依赖性的基准测试上性能不佳。
最近发表
标签列表