网站首页 > 文章精选 正文
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames
研究背景
理解长时间、真实世界的视频需要建模长范围的视觉依赖关系。然而,现有的视频理解模型在处理长时间视频时面临挑战,尤其是在硬件内存限制下难以处理大量视频帧。此外,很多先进的模型依赖于从图像到视频的迁移学习,这种方法在处理复杂视觉依赖时可能效果不佳。
研究意义
本文提出了一种简单而有效的方法,通过对比预训练来扩展视频编码器的能力,使其能够处理长达数分钟的视频内容。这种方法不仅克服了内存瓶颈,还在多个基准测试上取得了优于现有模型的表现,特别是对于具有长范围时间依赖性的视频任务。
文献综述
近年来,视觉语言模型在理解图像或短视频方面取得了显著成果,但这些模型主要依赖于预先训练好的图像编码器,并通过后期时间融合来处理视频。这种方法的局限性在于缺乏早期时间聚合的视频优先编码器,这可能限制了处理复杂视觉依赖的能力。此外,尽管有一些工作试图解决视频模型的时间可扩展性问题,但这些方法大多仍局限于短视频。
具体方法
本文提出了一个两阶段的训练过程:
对比预训练:首先,通过噪声对比估计(NCE)损失对视频编码器进行预训练。在这个过程中,采用了时空联合注意力机制,而不是传统的帧级编码,以提高对长时间依赖的建模能力。
视频到文本的微调:然后,将预训练的视频编码器与预先训练好的语言模型(LM)和视觉适配器层结合,用于视频到文本的生成任务(如视频摘要和问答)。
为了克服内存瓶颈,本文系统地分析了多种内存高效的方法,包括因子化注意力、参数高效的图像到视频适应、输入掩码和多分辨率块化。最终发现,在对比预训练过程中简单地掩蔽高达75%的视频内容是一种非常有效的方法,可以在几乎不损失性能的情况下显著减少内存消耗,并扩展到处理更长的视频。
图1:训练步骤概述
描述:
- 两步训练过程:对比预训练:首先,通过噪声对比估计(NCE)损失对视频编码器进行预训练。这个过程包括图像到短视频的预训练和短视频到长视频的预训练。
- 视频到文本的微调:使用预训练的视频编码器和预先训练好的语言模型(LM),以及视觉适配器层,进行视频到文本的生成任务(如视频摘要和问答)。
关键组件:
- 视频ViT(Joint Space-Time Attention):使用时空联合注意力的视频视觉Transformer。
- 预训练LM:预先训练好的大型语言模型。
- 交叉注意力:在视频编码器和语言模型之间建立交叉注意力机制。
- 时间池化:对视频表示进行时间池化,以减少帧数的影响。
图2:不同骨干网络的性能与内存消耗
描述:
- X轴:训练时的内存消耗(GB)。
- Y轴:文本到视频的召回率@1(%)。
- 曲线:展示了不同视频编码器骨干网络(联合时空注意力、因子化时空注意力、帧级编码)在不同输入掩码比例下的性能与内存消耗权衡。
关键发现:
- 联合时空注意力:在高达75%的输入掩码比例下仍能保持较好的性能,显示出对噪声输入的鲁棒性。
- 帧级编码和因子化时空注意力:随着掩码比例的增加,性能显著下降。
图3:不同模型规模的内存增加与性能下降
描述:
- 左侧柱状图:从基础模型(ViT-B)到大型模型(ViT-L)的内存增加百分比。
- 右侧柱状图:在不同模型规模下,各方法相对于无掩码和完全微调方法的性能下降百分比。
关键发现:
- 联合时空注意力:在模型规模增加时,内存模式与帧级编码相似,但性能下降较小。
- 因子化时空注意力:由于额外的时间参数,内存开销显著增加。
- 参数高效方法(如MLP适配器、LoRA):虽然内存要求随模型大小扩展得更好,但无法实现竞争性能。
图4:不同输入采样方法的性能与内存消耗
描述:
- X轴:训练时的内存消耗(GB)。
- Y轴:文本到视频的召回率@1(%)。
- 曲线:比较了不同输入采样方法(高输入掩码比例、粗粒度时间块化、粗粒度空间块化、TubeViT)的性能与内存消耗权衡。
关键发现:
- 高输入掩码比例与联合时空注意力结合使用时,提供了最强的内存/性能曲线。
- 粗粒度时间块化对具有丰富时间依赖性的基准测试(如YouCook2、VATEX)的负面影响更大。
- TubeViT在多个基准测试上表现出一定的性能下降,但由于使用多个卷积核,内存要求更高。
图5:扩展到更长视频的内存消耗
描述:
- X轴:短到长视频对比预训练时的内存消耗(GB)。
- Y轴:视频到文本微调时的内存消耗(GB)。
- 颜色编码:不同模型变体在YouCook2全长视频摘要任务上的Rouge-L得分。
关键发现:
- LONG VIVIT:通过对比预训练扩展到更长视频,并在视频到文本微调时保持较低的内存消耗,同时显著提高了性能。
- 输入掩码与最后四层调优:结合使用可以进一步减少内存消耗,而不影响性能。
表1:不同视觉骨干网络的性能比较
描述:
- 比较了不同视觉骨干网络(联合时空ViViT、因子化时空ViViT、帧级编码+平均池化、帧级编码+注意力池化)在多个短视频基准测试上的性能。
关键发现:
- 联合时空ViViT:在大多数基准测试上表现出色,尤其是在具有丰富时间依赖性的基准测试上。
- 注意力池化:在帧级编码上添加注意力池化并没有显著提高性能。
表2:短视频基准测试上的主要结果
描述:
- 比较了三种模型变体(IMAGE VIT-L、SHORT VIVIT-L、Efficient SHORT VIVIT-L)以及两种最先进的图像优先模型(VideoCoCa-L、Flamingo-3B)在多个短视频基准测试上的性能。
关键发现:
- SHORT VIVIT-L:在所有基准测试上均表现出色,甚至在具有丰富时间依赖性的基准测试上超越了更大的模型。
- Efficient SHORT VIVIT-L:通过75%的输入掩码实现了显著的内存节省,同时性能几乎没有下降。
表3:长视频理解基准测试上的结果
描述:
- 比较了不同模型变体(IMAGE VIT、SHORT VIVIT、LONG VIVIT)以及基于LLM的模块化方法在多个长视频理解基准测试上的性能。
关键发现:
- LONG VIVIT:在具有丰富时间依赖性的基准测试(如YouCook2、EgoSchema)上显著优于其他方法,包括使用更大LLM的模块化方法。
- 基于LLM的模块化方法:在具有较少时间依赖性的基准测试(如ActivityNet)上表现良好,但在具有丰富时间依赖性的基准测试上性能不佳。
- 上一篇: 编码器(数电)(编码器的)
- 下一篇: 数字电路--编码器(数字电路编码器和译码器)
猜你喜欢
- 2025-05-11 全新旗舰系列,引爆顶级性能!索泰RTX 5090 D 32GB SOLID OC显卡测评
- 2025-05-11 苹果联合研究照亮多模态AI未来方向:早期融合 + 稀疏架构
- 2025-05-11 环形导轨传动“三兄弟”,如何助力产线智能升级?
- 2025-05-11 MX550独显是智商税?如何看待2022年入门级移动显卡?
- 2025-05-11 cvpr 2024|适应长度偏移:用于轨迹预测的FlexiLength网络
- 2025-05-11 计算机组成原理 - 输入输出系统(2)
- 2025-05-11 新国标解读:起重机五大安全防线技术规范与维护指南
- 2025-05-11 用笔记本电脑摄像头录视频哪个软件比较好?
- 2025-05-11 美国罗克韦尔数控系统日常维修,确保设备高效运行!
- 2025-05-11 FANUC SP9031电机锁住或检测器断线故障分析
- 最近发表
- 标签列表
-
- newcoder (56)
- 字符串的长度是指 (45)
- drawcontours()参数说明 (60)
- unsignedshortint (59)
- postman并发请求 (47)
- python列表删除 (50)
- 左程云什么水平 (56)
- 计算机网络的拓扑结构是指() (45)
- 编程题 (64)
- postgresql默认端口 (66)
- 数据库的概念模型独立于 (48)
- 产生系统死锁的原因可能是由于 (51)
- 数据库中只存放视图的 (62)
- 在vi中退出不保存的命令是 (53)
- 哪个命令可以将普通用户转换成超级用户 (49)
- noscript标签的作用 (48)
- 联合利华网申 (49)
- swagger和postman (46)
- 结构化程序设计主要强调 (53)
- 172.1 (57)
- apipostwebsocket (47)
- 唯品会后台 (61)
- 简历助手 (56)
- offshow (61)
- mysql数据库面试题 (57)