
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames
研究背景
理解长时间、真实世界的视频需要建模长范围的视觉依赖关系。然而,现有的视频理解模型在处理长时间视频时面临挑战,尤其是在硬件内存限制下难以处理大量视频帧。此外,很多先进的模型依赖于从图像到视频的迁移学习,这种方法在处理复杂视觉依赖时可能效果不佳。
研究意义
本文提出了一种简单而有效的方法,通过对比预训练来扩展视频编码器的能力,使其能够处理长达数分钟的视频内容。这种方法不仅克服了内存瓶颈,还在多个基准测试上取得了优于现有模型的表现,特别是对于具有长范围时间依赖性的视频任务。
文献综述
近年来,视觉语言模型在理解图像或短视频方面取得了显著成果,但这些模型主要依赖于预先训练好的图像编码器,并通过后期时间融合来处理视频。这种方法的局限性在于缺乏早期时间聚合的视频优先编码器,这可能限制了处理复杂视觉依赖的能力。此外,尽管有一些工作试图解决视频模型的时间可扩展性问题,但这些方法大多仍局限于短视频。
具体方法
本文提出了一个两阶段的训练过程:
对比预训练:首先,通过噪声对比估计(NCE)损失对视频编码器进行预训练。在这个过程中,采用了时空联合注意力机制,而不是传统的帧级编码,以提高对长时间依赖的建模能力。
视频到文本的微调:然后,将预训练的视频编码器与预先训练好的语言模型(LM)和视觉适配器层结合,用于视频到文本的生成任务(如视频摘要和问答)。
为了克服内存瓶颈,本文系统地分析了多种内存高效的方法,包括因子化注意力、参数高效的图像到视频适应、输入掩码和多分辨率块化。最终发现,在对比预训练过程中简单地掩蔽高达75%的视频内容是一种非常有效的方法,可以在几乎不损失性能的情况下显著减少内存消耗,并扩展到处理更长的视频。

图1:训练步骤概述
描述:
两步训练过程:对比预训练:首先,通过噪声对比估计(NCE)损失对视频编码器进行预训练。这个过程包括图像到短视频的预训练和短视频到长视频的预训练。视频到文本的微调:使用预训练的视频编码器和预先训练好的语言模型(LM),以及视觉适配器层,进行视频到文本的生成任务(如视频摘要和问答)。关键组件:
视频ViT(Joint Space-Time Attention):使用时空联合注意力的视频视觉Transformer。预训练LM:预先训练好的大型语言模型。交叉注意力:在视频编码器和语言模型之间建立交叉注意力机制。时间池化:对视频表示进行时间池化,以减少帧数的影响。
图2:不同骨干网络的性能与内存消耗
描述:
X轴:训练时的内存消耗(GB)。Y轴:文本到视频的召回率@1(%)。曲线:展示了不同视频编码器骨干网络(联合时空注意力、因子化时空注意力、帧级编码)在不同输入掩码比例下的性能与内存消耗权衡。关键发现:
联合时空注意力:在高达75%的输入掩码比例下仍能保持较好的性能,显示出对噪声输入的鲁棒性。帧级编码和因子化时空注意力:随着掩码比例的增加,性能显著下降。
图3:不同模型规模的内存增加与性能下降
描述:
左侧柱状图:从基础模型(ViT-B)到大型模型(ViT-L)的内存增加百分比。右侧柱状图:在不同模型规模下,各方法相对于无掩码和完全微调方法的性能下降百分比。关键发现:
联合时空注意力:在模型规模增加时,内存模式与帧级编码相似,但性能下降较小。因子化时空注意力:由于额外的时间参数,内存开销显著增加。参数高效方法(如MLP适配器、LoRA):虽然内存要求随模型大小扩展得更好,但无法实现竞争性能。
图4:不同输入采样方法的性能与内存消耗
描述:
X轴:训练时的内存消耗(GB)。Y轴:文本到视频的召回率@1(%)。曲线:比较了不同输入采样方法(高输入掩码比例、粗粒度时间块化、粗粒度空间块化、TubeViT)的性能与内存消耗权衡。关键发现:
高输入掩码比例与联合时空注意力结合使用时,提供了最强的内存/性能曲线。粗粒度时间块化对具有丰富时间依赖性的基准测试(如YouCook2、VATEX)的负面影响更大。TubeViT在多个基准测试上表现出一定的性能下降,但由于使用多个卷积核,内存要求更高。
图5:扩展到更长视频的内存消耗
描述:
X轴:短到长视频对比预训练时的内存消耗(GB)。Y轴:视频到文本微调时的内存消耗(GB)。颜色编码:不同模型变体在YouCook2全长视频摘要任务上的Rouge-L得分。关键发现:
LONG VIVIT:通过对比预训练扩展到更长视频,并在视频到文本微调时保持较低的内存消耗,同时显著提高了性能。输入掩码与最后四层调优:结合使用可以进一步减少内存消耗,而不影响性能。

表1:不同视觉骨干网络的性能比较
描述:
比较了不同视觉骨干网络(联合时空ViViT、因子化时空ViViT、帧级编码+平均池化、帧级编码+注意力池化)在多个短视频基准测试上的性能。关键发现:
联合时空ViViT:在大多数基准测试上表现出色,尤其是在具有丰富时间依赖性的基准测试上。注意力池化:在帧级编码上添加注意力池化并没有显著提高性能。
表2:短视频基准测试上的主要结果
描述:
比较了三种模型变体(IMAGE VIT-L、SHORT VIVIT-L、Efficient SHORT VIVIT-L)以及两种最先进的图像优先模型(VideoCoCa-L、Flamingo-3B)在多个短视频基准测试上的性能。关键发现:
SHORT VIVIT-L:在所有基准测试上均表现出色,甚至在具有丰富时间依赖性的基准测试上超越了更大的模型。Efficient SHORT VIVIT-L:通过75%的输入掩码实现了显著的内存节省,同时性能几乎没有下降。
表3:长视频理解基准测试上的结果
描述:
比较了不同模型变体(IMAGE VIT、SHORT VIVIT、LONG VIVIT)以及基于LLM的模块化方法在多个长视频理解基准测试上的性能。关键发现:
LONG VIVIT:在具有丰富时间依赖性的基准测试(如YouCook2、EgoSchema)上显著优于其他方法,包括使用更大LLM的模块化方法。基于LLM的模块化方法:在具有较少时间依赖性的基准测试(如ActivityNet)上表现良好,但在具有丰富时间依赖性的基准测试上性能不佳。免责声明:文章内容来自互联网,本站仅提供信息存储空间服务,真实性请自行鉴别,本站不承担任何责任,如有侵权等情况,请与本站联系删除。
转载请注明出处:cvpr 2024|超越16帧:一种对比预训练视频优先编码器的简单方法 https://www.bxbdf.com/a/180591.shtml