虽然人们可以轻松识别视频中正在进行的活动并预测接下来会发生什么事件,但对于机器来说却更加困难。 然而,越来越多的机器必须理解视频的内容和动态,例如时间定位,动作检测和自动驾驶汽车的导航。为了训练神经网络来执行这样的任务,通常使用监督训练,其中训练数据由逐个基础上由人们精心标记的视频组成。 这样的注释难以大规模获得。 因此,人们对自我监督学习很感兴趣,其中模型在各种代理任务上进行训练,并且对这些任务的监督自然地存在于数据本身中。
在“VideoBERT:用于视频和语言表示学习的联合模型”( https://arxiv.org/abs/1904.01766)(VideoBERT)和“用于时间表示学习的对比双向变换器”( https://arxiv.org/abs/1906.05743)(CBT)中,我们建议学习来自未标记视频的时间表示。 目标是发现与在较长时间尺度上展开的动作和事件相对应的高级语义特征。 为了实现这一目标,我们利用人类语言进化词的关键洞察来描述高级对象和事件。在视频中,语音倾向于在时间上与视觉信号对齐,并且可以通过使用现成的自动语音识别(ASR)系统来提取,因此提供了自我监督的自然来源。我们的模型是跨模态学习的一个例子,因为它在训练期间共同利用来自视觉和音频(语音)模态的信号。
(图片说明)来自相同视频位置的图像帧和人类语音通常在语义上对齐。 对齐是非详尽的,有时是嘈杂的,我们希望通过预先训练更大的数据集来缓解这种情况。对于左边的例子,ASR输出是,“保持滚动紧密并将空气挤出到它的侧面,你可以稍微拉一点。”,其中动作是通过语音捕获但物体不是。 对于正确的示例,ASR输出是“这是您需要耐心耐心耐心的地方”,这与视觉内容完全无关。
视频的BERT模型
表示学习的第一步是定义一个代理任务,该任务引导模型从长的,未标记的视频中学习时间动态和跨模态语义对应。 为此,我们概括了变换器(BERT)模型的双向编码器表示。 BERT模型通过应用Transformer架构对长序列进行编码,并在包含大量文本的语料库上进行预训练,在各种自然语言处理任务上展示了最先进的性能。 BERT使用完形填空测试作为其代理任务,其中BERT模型被迫从双向上下文中预测缺失的单词,而不是仅仅预测序列中的下一个单词。
为此,我们概括总结了BERT训练目标,使用图像帧结合相同位置的ASR句子输出来组成交叉模态“句子”。基于视觉特征相似性,图像帧被转换为具有1.5秒持续时间的视觉标记。 然后将它们与ASR单词标记连接起来。 我们训练VideoBERT模型以从视觉文本句子填写缺失的标记。我们的实验支持的假设是,通过预先训练这个代理任务,模型学会推理长程时间动态(视觉完整性)和高级语义(视觉文本完形填空)。
(图片说明)VideoBERT在视频和文本蒙版令牌预测或完形填空任务的上下文中的插图。底部:来自视频相同位置的视觉和文本(ASR)标记被连接起来形成VideoBERT的输入。一些视觉和文本标记被掩盖了。 中:VideoBERT应用Transformer架构来联合编码双向可视文本上下文。黄色和粉红色框分别对应于输入和输出嵌入。 顶部:培训目标是为掩盖的位置恢复正确的标记。
检查VideoBERT模型
我们为超过一百万个教学视频培训VideoBERT,例如烹饪,园艺和车辆维修。一旦经过培训,就可以检查VideoBERT模型在许多任务中学到什么,以验证输出是否准确地反映了视频内容。 例如,文本到视频预测可用于从视频自动生成一组指令(例如配方),产生反映在每个步骤描述的内容的视频片段(令牌)。此外,视频到视频预测可用于基于初始视频令牌可视化可能的未来内容。
(图片说明)VideoBERT的定性结果,预制在烹饪视频上。 顶部:给定一些食谱文本,我们生成一系列视觉标记。下图:给定一个视觉令牌,我们展示了VideoBERT在不同时间尺度上预测的前三个未来令牌。 在这种情况下,该模型预测一碗面粉和可可粉可以在烤箱中烘烤,并且可以变成布朗尼或蛋糕。我们使用最接近特征空间中的标记的训练集中的图像来可视化视觉标记。
为了验证VideoBERT是否学习了视频和文本之间的语义对应关系,我们在烹饪视频数据集上测试了其“零镜头”分类准确度,其中在预训练期间既没有使用视频也没有使用注释。 为了进行分类,视频令牌与模板句子连接起来“现在让我告诉你如何[MASK] [MASK]”并提取预测的动词和名词标记。 VideoBERT模型匹配全监督基线的前5精度,表明该模型能够在这种“零射击”设置中具有竞争力。
用对比双向变压器进行转移学习
虽然VideoBERT在学习如何自动标记和预测视频内容方面取得了令人瞩目的成果,但我们注意到VideoBERT使用的视觉标记可能会丢失细粒度的视觉信息,例如较小的物体和微妙的动作。为了探索这一点,我们提出了对比双向变换器(CBT)模型,该模型消除了这种标记化步骤,并通过下游任务的转移学习进一步评估了学习表示的质量。 CBT应用不同的损失函数,即对比损失,以便最大化掩蔽位置和其余跨模态句子之间的互信息。我们评估了各种任务(例如,动作分段,动作预测和视频字幕)以及各种视频数据集的学习表示。在大多数基准测试中,CBT方法的表现优于先前的最新技术水平。我们观察到:(1)跨模态目标对转学习绩效很重要; (2)更大,更多样化的预训练集导致更好的表现形式; (3)与基线方法(如平均合并或LSTM)相比,CBT模型在利用长时间背景方面要好得多。
(图片说明)使用CBT方法对200个活动类别的未修剪视频采取行动预期准确性。我们与AvgPool和LSTM进行比较,并在观察时间为15秒,30秒,45秒和72秒时报告性能。
结论和未来的工作
我们的结果证明了BERT模型用于学习来自未标记视频的视觉语言和视觉表示的强大功能。我们发现我们的模型不仅可用于零射击动作分类和配方生成,而且学习的时间表示也可以很好地转移到各种下游任务,例如动作预期。 未来的工作包括与长期时间表示一起学习低级视觉特征,从而更好地适应视频环境。此外,我们计划将预培训视频的数量扩大到更大,更多样化。
致谢
核心团队包括Chen Sun,Fabien Baradel,Austin Myers,Carl Vondrick,Kevin Murphy和Cordelia Schmid。 我们要感谢Jack Hessel,Bo Pang,RaduSoricut,Baris Sumengen,ZhenzhenZhu和BERT团队分享了极大地促进我们实验的神奇工具。 我们还要感谢Justin Gilmer,Abhishek Kumar,Ben Poole,David Ross和Rahul Sukthankar的有益讨论。
说明:文章选自Google AI Blog,原文链接https://ai.googleblog.com/2019/09/learning-cross-modal-temporal.html