機器學習|從未標記的視頻中學習跨模態時間表示

2019-09-15     流風不凍0205

雖然人們可以輕鬆識別視頻中正在進行的活動並預測接下來會發生什麼事件,但對於機器來說卻更加困難。 然而,越來越多的機器必須理解視頻的內容和動態,例如時間定位,動作檢測和自動駕駛汽車的導航。為了訓練神經網絡來執行這樣的任務,通常使用監督訓練,其中訓練數據由逐個基礎上由人們精心標記的視頻組成。 這樣的注釋難以大規模獲得。 因此,人們對自我監督學習很感興趣,其中模型在各種代理任務上進行訓練,並且對這些任務的監督自然地存在於數據本身中。

在「VideoBERT:用於視頻和語言表示學習的聯合模型」( https://arxiv.org/abs/1904.01766)(VideoBERT)和「用於時間表示學習的對比雙向變換器」( https://arxiv.org/abs/1906.05743)(CBT)中,我們建議學習來自未標記視頻的時間表示。 目標是發現與在較長時間尺度上展開的動作和事件相對應的高級語義特徵。 為了實現這一目標,我們利用人類語言進化詞的關鍵洞察來描述高級對象和事件。在視頻中,語音傾向於在時間上與視覺信號對齊,並且可以通過使用現成的自動語音識別(ASR)系統來提取,因此提供了自我監督的自然來源。我們的模型是跨模態學習的一個例子,因為它在訓練期間共同利用來自視覺和音頻(語音)模態的信號。



(圖片說明)來自相同視頻位置的圖像幀和人類語音通常在語義上對齊。 對齊是非詳盡的,有時是嘈雜的,我們希望通過預先訓練更大的數據集來緩解這種情況。對於左邊的例子,ASR輸出是,「保持滾動緊密並將空氣擠出到它的側面,你可以稍微拉一點。」,其中動作是通過語音捕獲但物體不是。 對於正確的示例,ASR輸出是「這是您需要耐心耐心耐心的地方」,這與視覺內容完全無關。

視頻的BERT模型

表示學習的第一步是定義一個代理任務,該任務引導模型從長的,未標記的視頻中學習時間動態和跨模態語義對應。 為此,我們概括了變換器(BERT)模型的雙向編碼器表示。 BERT模型通過應用Transformer架構對長序列進行編碼,並在包含大量文本的語料庫上進行預訓練,在各種自然語言處理任務上展示了最先進的性能。 BERT使用完形填空測試作為其代理任務,其中BERT模型被迫從雙向上下文中預測缺失的單詞,而不是僅僅預測序列中的下一個單詞。

為此,我們概括總結了BERT訓練目標,使用圖像幀結合相同位置的ASR句子輸出來組成交叉模態「句子」。基於視覺特徵相似性,圖像幀被轉換為具有1.5秒持續時間的視覺標記。 然後將它們與ASR單詞標記連接起來。 我們訓練VideoBERT模型以從視覺文本句子填寫缺失的標記。我們的實驗支持的假設是,通過預先訓練這個代理任務,模型學會推理長程時間動態(視覺完整性)和高級語義(視覺文本完形填空)。



(圖片說明)VideoBERT在視頻和文本蒙版令牌預測或完形填空任務的上下文中的插圖。底部:來自視頻相同位置的視覺和文本(ASR)標記被連接起來形成VideoBERT的輸入。一些視覺和文本標記被掩蓋了。 中:VideoBERT應用Transformer架構來聯合編碼雙向可視文本上下文。黃色和粉紅色框分別對應於輸入和輸出嵌入。 頂部:培訓目標是為掩蓋的位置恢復正確的標記。

檢查VideoBERT模型

我們為超過一百萬個教學視頻培訓VideoBERT,例如烹飪,園藝和車輛維修。一旦經過培訓,就可以檢查VideoBERT模型在許多任務中學到什麼,以驗證輸出是否準確地反映了視頻內容。 例如,文本到視頻預測可用於從視頻自動生成一組指令(例如配方),產生反映在每個步驟描述的內容的視頻片段(令牌)。此外,視頻到視頻預測可用於基於初始視頻令牌可視化可能的未來內容。



(圖片說明)VideoBERT的定性結果,預製在烹飪視頻上。 頂部:給定一些食譜文本,我們生成一系列視覺標記。下圖:給定一個視覺令牌,我們展示了VideoBERT在不同時間尺度上預測的前三個未來令牌。 在這種情況下,該模型預測一碗麵粉和可可粉可以在烤箱中烘烤,並且可以變成布朗尼或蛋糕。我們使用最接近特徵空間中的標記的訓練集中的圖像來可視化視覺標記。

為了驗證VideoBERT是否學習了視頻和文本之間的語義對應關係,我們在烹飪視頻數據集上測試了其「零鏡頭」分類準確度,其中在預訓練期間既沒有使用視頻也沒有使用注釋。 為了進行分類,視頻令牌與模板句子連接起來「現在讓我告訴你如何[MASK] [MASK]」並提取預測的動詞和名詞標記。 VideoBERT模型匹配全監督基線的前5精度,表明該模型能夠在這種「零射擊」設置中具有競爭力。

用對比雙向變壓器進行轉移學習

雖然VideoBERT在學習如何自動標記和預測視頻內容方面取得了令人矚目的成果,但我們注意到VideoBERT使用的視覺標記可能會丟失細粒度的視覺信息,例如較小的物體和微妙的動作。為了探索這一點,我們提出了對比雙向變換器(CBT)模型,該模型消除了這種標記化步驟,並通過下游任務的轉移學習進一步評估了學習表示的質量。 CBT應用不同的損失函數,即對比損失,以便最大化掩蔽位置和其餘跨模態句子之間的互信息。我們評估了各種任務(例如,動作分段,動作預測和視頻字幕)以及各種視頻數據集的學習表示。在大多數基準測試中,CBT方法的表現優於先前的最新技術水平。我們觀察到:(1)跨模態目標對轉學習績效很重要; (2)更大,更多樣化的預訓練集導致更好的表現形式; (3)與基線方法(如平均合併或LSTM)相比,CBT模型在利用長時間背景方面要好得多。



(圖片說明)使用CBT方法對200個活動類別的未修剪視頻採取行動預期準確性。我們與AvgPool和LSTM進行比較,並在觀察時間為15秒,30秒,45秒和72秒時報告性能。

結論和未來的工作

我們的結果證明了BERT模型用於學習來自未標記視頻的視覺語言和視覺表示的強大功能。我們發現我們的模型不僅可用於零射擊動作分類和配方生成,而且學習的時間表示也可以很好地轉移到各種下游任務,例如動作預期。 未來的工作包括與長期時間表示一起學習低級視覺特徵,從而更好地適應視頻環境。此外,我們計劃將預培訓視頻的數量擴大到更大,更多樣化。

致謝

核心團隊包括Chen Sun,Fabien Baradel,Austin Myers,Carl Vondrick,Kevin Murphy和Cordelia Schmid。 我們要感謝Jack Hessel,Bo Pang,RaduSoricut,Baris Sumengen,ZhenzhenZhu和BERT團隊分享了極大地促進我們實驗的神奇工具。 我們還要感謝Justin Gilmer,Abhishek Kumar,Ben Poole,David Ross和Rahul Sukthankar的有益討論。

說明:文章選自Google AI Blog,原文連結https://ai.googleblog.com/2019/09/learning-cross-modal-temporal.html

文章來源: https://twgreatdaily.com/n60KNm0BJleJMoPMF-xQ.html