編者按:當時間從一維走向二維,時序信息處理問題中一種全新的建模思路由此產生。根據這種新思路及其產生的二維時間圖概念,微軟亞洲研究院提出一種新的解決時間定位問題的通用方法:二維時域鄰近網絡 2D-TAN,在基於自然語言描述的視頻內容定位和視頻內人體動作檢測兩個任務上驗證了其有效性,並在 ICCV 2019 中的 HACS Action Localization Challenge 比賽中獲得了第一,相關技術細節將發表於 AAAI 2020 論文「Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language」。本文將對這一研究進行深入解讀。
時間可以是二維的嗎?這是一個好問題!
我們常常將物理世界定義為三維空間,將時間定義為一維空間。但是,這不是唯一的定義方式。最近,研究院的童鞋們大開腦洞,提出了一種新的時間表示方式,將時間定義成了二維的!
在二維空間裡,時間是如何表達的呢?童鞋們給出的答案是這樣的:在二維空間中,我們定義其中一個維度表示時間的開始時刻,另外一個維度表示時間的結束時刻;從而,二維空間中的每一個坐標點就可以表達一個時間片段(例如,從 A 時刻開始到 B 時刻結束的時間片),也可以是一個特定的時間點(例如,從 A 時刻開到 A 時刻結束,即為 A 時刻)。
這種二維時間定義的用途和意義在哪裡呢?童鞋們認為這種新的時間定義方式,可以為時序信息處理問題提供一種新的建模思路,例如視頻、語音、軌跡等時序信息的分析與處理。近期,他們已將這種新的時間表達方式,應用於視頻內容理解中,並在視頻內人體動作檢測、視頻內容片段定位任務中取得了優異的性能。值得一提的是,他們應用這種新的時間表達方式,結合最新的深度學習模型,在視頻行為識別與檢測競賽(HACS Temporal Action Localization Challenge)中取得了第1名的成績。
下面,就讓我們了解一下這種二維時間表達方式是如何應用在視頻內容理解任務中的。
1、基於二維時間圖的視頻內容片段定位
視頻內容片段定位包含多個子任務,例如,基於自然語言描述的視頻片段定位(moment localization with natural language)與視頻內人體動作檢測(temporal action localization)。前者需要根據用戶給定的描述語句,從視頻中定位文字所描述的視頻片段的開始和結束時間點;後者則需要在給定的長視頻中,檢測出其存在的動作片段類別,並定位出動作開始和結束的時間點。
在這些任務中,一個通用的做法是預先設定一些候選視頻片段(proposals/moments/ segments),再對每個片段的可能性進行相應的預測。然而在預測過程中,前人的工作通常只是對每個片段獨立預測,卻忽略了片段之間的依賴關係。為此,本文提出了二維時間圖的概念,並通過二維時域鄰近網絡(2D Temporal Adjacent Network, i.e. 2D-TAN)來解決這一問題。該方法是一個解決時間定位問題的通用方法,不僅可以學習出片段之間的時域鄰近關係,同時也能學習出更具有區分性的特徵表達。
我們的方法在上述的視頻內容片段定位任務上進行了驗證。在基於自然語言描述的視頻片段定位任務中,我們提出的 2D-TAN 方法在三個基準數據集均獲得了良好的性能結果,相關論文已經被 AAAI 2020 接收[1]。在視頻內人體動作檢測中,我們基於 2D-TAN 的改進方案[2]在 HACS Temporal Action Localization Challenge 中獲得第一。
下面以自然語言描述的視頻內容片段定位為例介紹我們的工作,並簡要介紹人體動作檢測方面的拓展。
2、基於自然語言描述的視頻片段定位
基於自然語言描述的視頻片段定位任務是根據用戶給定的描述語句,從視頻中定位文字所描述的視頻片段,並返回該片段的開始和結束時間,如圖1所示。前人的工作都是獨立地匹配句子和一個片段,而忽略了其他片段對其影響。當要處理涉及多片段的情況,尤其是片段之間存在依賴關係的時候,這種做法很難得到精確的結果。例如,當我們要定位「這個人又吹起了薩克斯 The guy plays the saxophone again」,如果只看後面的視頻而不看前面的,我們不可能在視頻中定位到這個片段。另一方面,有很多候選片段都與目標片段有重疊,例如圖1中 Query B 下面所對應的多種片段。這些片段有著相似的視頻內容,但是語義上會略有所不同。如果不將這些片段綜合考慮來區分其中的細微差別,同樣很難得到精確的結果。
圖1:任務示意圖。在二維時間圖中,黑色坐標軸上的數字表示開始和結束的序號,灰色坐標軸上的數字表示序號所對應的時間點。二維時間圖中方格的紅色程度反映該片段與目標片段的重疊程度,取決於視頻長度及採樣比例。
為解決這一問題,我們提出了二維時域鄰近網絡(2D-TAN)。其核心思想是在二維時間圖中做視頻片段定位,如圖1所示。具體來說,圖中(i,j)表示的是一個從 i 到 (j+1) 的時間片段。該圖包含多種長度的片段,並通過圖中坐標的遠近,我們可以定義這些片段之間的鄰近關係。有了這些關係,我們的 2D-TAN 模型便可以對依賴關係進行建模。與此同時,不同片段與目標片段之間的重疊程度會有所不同。2D-TAN 通過整體考慮這些重疊上的差異,而非單獨考慮每個片段,可以學習更具有區分性的特徵,如圖2。
圖2:與前人方法的對比。綠色長方體表示候選片段與句子融合後的相似度特徵。方框表示得分,方框紅色的程度表示該片段與目標片段的重疊程度。左圖表示前人的方法,獨立預測各個片段的得分。右圖表示我們的方法,預測當前片段的得分時,綜合考慮了鄰近片段的關係。
二維時域鄰近網絡(2D-TAN)
我們的 2D-TAN 模型如圖3所示。該網絡由三部分構成:一個用來提取自然語言文本特徵的編碼器,一個用來提取視頻特徵圖的編碼器,及一個用來定位的時域鄰近網絡。我們在下文具體介紹各部分。
圖3:2D-TAN的框架示意圖
語句的文本特徵
我們將每個文本單詞轉換成 GloVe 詞向量表達[4],再將詞向量依次通過 LSTM 網絡[5],使用其最後一層輸出作為文本語句的特徵。
視頻的二維特徵圖
我們首先將視頻分割成小的單元片段(clip),之後等距降採樣到統一長度,再通過預訓練好的網絡抽取其特徵。抽取好的特徵通過卷積、池化操作獲得最終的單元片段特徵(clip feature),大小是 N×d^v。候選片段由一段連續的單元片段構成,不同候選片段長度可能會不同。為獲得統一的特徵表示,對於每一個候選片段,我們通過對其相應的單元片段序列最大池化(max-pooling)獲得其最終特證。根據每個候選片段的始末時間點,我們將所有的候選片段重新排列成一個二維特徵圖,大小是 N×N×d^v。因為開始時間永遠小於結束時間,特徵圖的下三角部分是無效的,因此我們將它們填充成0,且不參與後續的計算。
當 N 較大時,特徵圖的計算量也會隨之增大,為解決此問題,我們還提出了一種稀疏圖的構造策略,如圖4所示。在該圖中,我們根據片段的長短進行不同密度的採樣。對於短片段,我們枚舉出所有可能,進行密集採樣。對於中等長度的片段,我們採樣的步長設為2。對於長片段,我們採樣的步長設為4。通過這種方式,我們可以降低因枚舉所帶來的計算開銷,同時保證精度。所有未被選中的片段被填充為0,不參與後續的計算。
圖4:當 N=64 時的候選片段。藍色的方格表示選中參與候選的片段,灰色的方格表示未選中的片段。白色的方格表示無效的片段。
通過時間鄰近網絡定位
有了視頻的二維特徵圖(圖3中的藍色立方體)和語句的文本特徵(圖3中的黃色長方體),我們首先將其特徵圖中每個位置的視頻特徵與文本特徵融合,獲得相似度的特徵圖(圖3右圖中左側的綠色立方體)。然後,將融合後的相似度特徵圖通過一系列的卷積層,逐層建立其每個片段與周邊片段之間的關係。最後,我們將這種考慮了鄰近關係的相似度特徵輸入到全聯接層中,獲得最終的得分。
損失函數
在訓練整個 2D-TAN 網絡時,我們採用二元交叉熵(binary cross-entropy)作為損失函數,並使用經過線性變換的 intersection-over-union (IoU)值作為損失函數中的標籤(label)。
實驗結果
我們在 Charades-STA [6]、ActivityNet Captions [7] 和 TACoS [8] 三個數據集中進行了測試。實驗結果如表1-3所示。從實驗結果中我們可以看出,在不同數據集的多種評價指標下,我們的方法均取得了優異的性能。值得注意的是,我們的方法在更苛刻的評價標準下的提升更為明顯(如表1-3中 rank{1,5}@{0.5,0.7} 的表現),尤其是在 TACoS、Rank1@0.5 和 Rank5@0.5 兩個上獲得了5和14個百分點的提升。這些實驗結果說明基於二維時間圖鄰近關係的建模對性能提升有很大的幫助。
表1:Charades-STA 的實驗結果。Pool 和 Conv 表示兩種不同的片段特徵提取方式,下表同。
表2:ActivityNet Captions 的實驗結果
表3:TACoS 的實驗結果
3、基於二維時間圖的人體動作檢測
考慮到 2D-TAN 方法的通用性和其在基於自然語言的時間定位任務上的優異性能,我們在後續的工作中將其拓展到了視頻內人體動作檢測任務中。該任務需要在給定的長視頻中,檢測出視頻中預定義的動作片段類別及其開始和結束時間點。一種通常的做法是將該任務拆分成兩步,首先檢測出哪些片段可能存在預定義動作的片段(proposal generation),然後預測這些候選片段可能所屬的類別(classification)。考慮到這類做法的第一步和我們提出的 2D-TAN 方法很相關,本質上都是要解決片段之間的相互依賴關係的問題,因此我們用 2D-TAN 方法針對該任務進行了改進,如圖5。
圖5:S-2D-TAN 框架示意圖
相較於基於自然語言描述的視頻片段定位,視頻內動作定位的目標片段往往比較短。因此需要的採樣頻率更高,採樣的單元片段個數 N 也因此更大。相應地,在特徵圖中長片段的採樣步長也會比較大,底層的卷積層往往感受不到足夠的上下文信息。在圖5中,紅色虛線方框表示的是中等長度片段在第一層涉及到的鄰近片段,而黃色虛線方框表示的是短片段要涉及的鄰近片段。我們可以看出,黃色框涉及的上下文信息要比紅色框的多。因此我們在 2D-TAN 的基礎上,針對長片段上下文信息較少,設計了一個稀疏二維時域鄰近網絡(Sparse 2D Temporal Adjacent Network, i.e. S-2D-TAN)。該網絡將稀疏圖按照採樣的步長,拆分成三個更緊湊的時域特徵圖。通過將不同特徵圖分別通過一個共享內核的卷積網絡,從而使得長片段可從周圍的特徵中獲得更多的上下文信息。
我們的算法在 ICCV 2019 中的 HACS Action Localization Challenge 比賽中獲得了第一名的成績。值得一提的是,HACS 目前是視頻內人體動作檢測任務中最大的數據集 [2]。更多細節請參考技術報告[3]。
圖6:比賽獲獎證書
4、結 語
本文針對視頻內容片段定位問題提出了一種二維時間圖表示方式與一種新的時域鄰近網絡(2D-TAN),其有效性已在基於自然語言描述的視頻內容定位和人體動作檢測兩個任務上得到了初步的驗證。該方法目前仍處於一個初步探索的階段:從網絡結構的角度來說,當前的結構僅採用簡單地堆疊卷積層的方式,相信進一步優化網絡結構本身會帶來性能上的提升。另一方面,從方法的通用性角度來說,目前我們僅驗證了兩個任務,仍有許多相關任務值得拓展,例如視頻文本描述,視頻內容問答,亦或是語音等其他包含時序信息的任務。
更多技術細節,詳見論文:
Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language
論文連結: https://arxiv.org/abs/1912.03590
代碼連結: https://github.com/microsoft/2D-TAN
本文作者:彭厚文、張宋揚、傅建龍、羅傑波
參考文獻
1. Songyang Zhang, Houwen Peng, JianlongFu and Jiebo Luo, 「Learning 2D Temporal Adjacent Networks forMoment Localization with Natural Language」, AAAI 2020
2. Hang Zhao, Zhicheng Yan, Lorenzo Torresani and Antonio Torralba, 「HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization」, ICCV 2019
3. Songyang Zhang, Houwen Peng, Le Yang, Jianlong Fu and Jiebo Luo, 「Learning Sparse 2D Temporal Adjacent Networks for Temporal Action Localization」, Technical Report
4. Jeffrey Pennington, Richard Socher and Christopher D. Manning, 「GloVe: Global Vectors for Word Representation」, EMNLP 2014
5. Hochreiter, Sepp and Schmidhuber,Jurgen, 「Long short-term memory」, Neural computation 1997
6. Jiyang Gao, Chen Sun, Zhenheng Yang and Ram Nevatia, 「TALL: Temporal activity localization via language query」, ICCV2017
7. Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles, 「Dense-Captioning Events in Videos」, ICCV 2017
8. Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, and Bernt Schiele, and Manfred Pinkal, 「Grounding action descriptions in videos」, TACL 2013
點擊「閱讀原文」加入AAAI 小組,了解 AAAI 最新動態