A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames

研究背景

理解长时间、真实世界的视频需要建模长范围的视觉依赖关系。然而，现有的视频理解模型在处理长时间视频时面临挑战，尤其是在硬件内存限制下难以处理大量视频帧。此外，很多先进的模型依赖于从图像到视频的迁移学习，这种方法在处理复杂视觉依赖时可能效果不佳。

研究意义

本文提出了一种简单而有效的方法，通过对比预训练来扩展视频编码器的能力，使其能够处理长达数分钟的视频内容。这种方法不仅克服了内存瓶颈，还在多个基准测试上取得了优于现有模型的表现，特别是对于具有长范围时间依赖性的视频任务。

文献综述

近年来，视觉语言模型在理解图像或短视频方面取得了显著成果，但这些模型主要依赖于预先训练好的图像编码器，并通过后期时间融合来处理视频。这种方法的局限性在于缺乏早期时间聚合的视频优先编码器，这可能限制了处理复杂视觉依赖的能力。此外，尽管有一些工作试图解决视频模型的时间可扩展性问题，但这些方法大多仍局限于短视频。

具体方法

本文提出了一个两阶段的训练过程：

对比预训练‌：首先，通过噪声对比估计（NCE）损失对视频编码器进行预训练。在这个过程中，采用了时空联合注意力机制，而不是传统的帧级编码，以提高对长时间依赖的建模能力。

视频到文本的微调‌：然后，将预训练的视频编码器与预先训练好的语言模型（LM）和视觉适配器层结合，用于视频到文本的生成任务（如视频摘要和问答）。

为了克服内存瓶颈，本文系统地分析了多种内存高效的方法，包括因子化注意力、参数高效的图像到视频适应、输入掩码和多分辨率块化。最终发现，在对比预训练过程中简单地掩蔽高达75%的视频内容是一种非常有效的方法，可以在几乎不损失性能的情况下显著减少内存消耗，并扩展到处理更长的视频。

图1：训练步骤概述

描述：

两步训练过程：对比预训练：首先，通过噪声对比估计（NCE）损失对视频编码器进行预训练。这个过程包括图像到短视频的预训练和短视频到长视频的预训练。视频到文本的微调：使用预训练的视频编码器和预先训练好的语言模型（LM），以及视觉适配器层，进行视频到文本的生成任务（如视频摘要和问答）。

关键组件：

视频ViT（Joint Space-Time Attention）：使用时空联合注意力的视频视觉Transformer。预训练LM：预先训练好的大型语言模型。交叉注意力：在视频编码器和语言模型之间建立交叉注意力机制。时间池化：对视频表示进行时间池化，以减少帧数的影响。

图2：不同骨干网络的性能与内存消耗

描述：

X轴：训练时的内存消耗（GB）。Y轴：文本到视频的召回率@1（%）。曲线：展示了不同视频编码器骨干网络（联合时空注意力、因子化时空注意力、帧级编码）在不同输入掩码比例下的性能与内存消耗权衡。

关键发现：

联合时空注意力：在高达75%的输入掩码比例下仍能保持较好的性能，显示出对噪声输入的鲁棒性。帧级编码和因子化时空注意力：随着掩码比例的增加，性能显著下降。

图3：不同模型规模的内存增加与性能下降

描述：

左侧柱状图：从基础模型（ViT-B）到大型模型（ViT-L）的内存增加百分比。右侧柱状图：在不同模型规模下，各方法相对于无掩码和完全微调方法的性能下降百分比。

关键发现：

联合时空注意力：在模型规模增加时，内存模式与帧级编码相似，但性能下降较小。因子化时空注意力：由于额外的时间参数，内存开销显著增加。参数高效方法（如MLP适配器、LoRA）：虽然内存要求随模型大小扩展得更好，但无法实现竞争性能。

图4：不同输入采样方法的性能与内存消耗

描述：

X轴：训练时的内存消耗（GB）。Y轴：文本到视频的召回率@1（%）。曲线：比较了不同输入采样方法（高输入掩码比例、粗粒度时间块化、粗粒度空间块化、TubeViT）的性能与内存消耗权衡。

关键发现：

高输入掩码比例与联合时空注意力结合使用时，提供了最强的内存/性能曲线。粗粒度时间块化对具有丰富时间依赖性的基准测试（如YouCook2、VATEX）的负面影响更大。TubeViT在多个基准测试上表现出一定的性能下降，但由于使用多个卷积核，内存要求更高。

图5：扩展到更长视频的内存消耗

描述：

X轴：短到长视频对比预训练时的内存消耗（GB）。Y轴：视频到文本微调时的内存消耗（GB）。颜色编码：不同模型变体在YouCook2全长视频摘要任务上的Rouge-L得分。

关键发现：

LONG VIVIT：通过对比预训练扩展到更长视频，并在视频到文本微调时保持较低的内存消耗，同时显著提高了性能。输入掩码与最后四层调优：结合使用可以进一步减少内存消耗，而不影响性能。

表1：不同视觉骨干网络的性能比较

描述：

比较了不同视觉骨干网络（联合时空ViViT、因子化时空ViViT、帧级编码+平均池化、帧级编码+注意力池化）在多个短视频基准测试上的性能。

关键发现：

联合时空ViViT：在大多数基准测试上表现出色，尤其是在具有丰富时间依赖性的基准测试上。注意力池化：在帧级编码上添加注意力池化并没有显著提高性能。

表2：短视频基准测试上的主要结果

描述：

比较了三种模型变体（IMAGE VIT-L、SHORT VIVIT-L、Efficient SHORT VIVIT-L）以及两种最先进的图像优先模型（VideoCoCa-L、Flamingo-3B）在多个短视频基准测试上的性能。

关键发现：

SHORT VIVIT-L：在所有基准测试上均表现出色，甚至在具有丰富时间依赖性的基准测试上超越了更大的模型。Efficient SHORT VIVIT-L：通过75%的输入掩码实现了显著的内存节省，同时性能几乎没有下降。

表3：长视频理解基准测试上的结果

描述：

比较了不同模型变体（IMAGE VIT、SHORT VIVIT、LONG VIVIT）以及基于LLM的模块化方法在多个长视频理解基准测试上的性能。

关键发现：

LONG VIVIT：在具有丰富时间依赖性的基准测试（如YouCook2、EgoSchema）上显著优于其他方法，包括使用更大LLM的模块化方法。基于LLM的模块化方法：在具有较少时间依赖性的基准测试（如ActivityNet）上表现良好，但在具有丰富时间依赖性的基准测试上性能不佳。

免责声明：文章内容来自互联网，本站仅提供信息存储空间服务，真实性请自行鉴别，本站不承担任何责任，如有侵权等情况，请与本站联系删除。
转载请注明出处：cvpr 2024｜超越16帧：一种对比预训练视频优先编码器的简单方法 https://www.bxbdf.com/a/180591.shtml

cvpr 2024｜超越16帧：一种对比预训练视频优先编码器的简单方法

图1：训练步骤概述

图2：不同骨干网络的性能与内存消耗

图3：不同模型规模的内存增加与性能下降

图4：不同输入采样方法的性能与内存消耗

图5：扩展到更长视频的内存消耗

表1：不同视觉骨干网络的性能比较

表2：短视频基准测试上的主要结果

表3：长视频理解基准测试上的结果

猜你喜欢