AAAI 2020 | 上交大:基於圖像查詢的視頻檢索,代碼已開源

2020-01-10   AI科技評論

作者 | 徐瑞聰

編輯 | Camel

本篇文章介紹上海交通大學 BCMI 實驗室在AAAI 2020 上的一項工作,A Proposal-based Approach for Activity Image-to-Video Retrieval。

論文連結:https://arxiv.org/pdf/1911.10531.pdf

代碼連結:https://github.com/bcmi/Cross-modal-retrieval

網際網路時代技術的迅速發展,推動了圖片、文字、視頻等多媒體的爆發。當今社會越來越不能滿足於單一模態的檢索需求,大量跨模態檢索的應用在不斷發展。其中,基於圖片查詢的視頻檢索是一類具有研究意義和價值的應用,例如,利用幻燈片搜索相關視頻講座、推薦與圖片相關的視頻電影、利用照片去檢索新聞視頻等。但是,由於圖片和視頻之間數據分布不同,並且語義信息不一致,這必然導致傳統的單模態檢索方式不適用於跨模態檢索任務。如何挖掘數據內在的聯繫、如何建立多模態信息特徵的統一映射、如何保證檢索速度都是跨模態檢索麵臨的巨大的挑戰。

在跨模態檢索任務中,對圖片的特徵提取工作已經趨於成熟,基於深度模型的方法已經在大量分類任務中驗證具有較好的效果。不同於圖片特徵提取,由於視頻複雜的內容和結構特徵,視頻特徵提取的研究工作在不斷探索中。傳統的檢索方式可以將視頻中每一幀進行信息抽取並表達,則圖片到視頻的檢索工作可以看作圖片到視頻幀的檢索工作。但傳統方式對視頻的表達必然會導致視頻表達中存在與主要信息內容無關的冗餘背景片段,為後續檢索工作造成一定的困難。

為了解決上述問題,基於時序信息的深度網絡被大量研究。通過同時從時間和空間維度學習特徵,循環神經網絡(RNN)和3D卷積網絡(3D CNN)被廣泛利用在視頻領域。作為3D CNN模型的擴展,R-C3D模型被應用於連續視頻的行為檢測任務。R-C3D模型首先通過一個C3D模型提取特徵,再利用區域候選網絡(RPN)提取候選的活動序列段,最後在分類子網絡中進行分類和活動序列段邊界的回歸。

針對本任務的需求,我們創新性地採用R-C3D模型來生成候選的活動區域段特徵,進一步濾除嘈雜的背景信息片段,從而獲得優越的視頻活動區域段表示方法來進行跨模態檢索任務。

APIVR:基於對抗學習的跨模態檢索方法

本文主要針對基於圖片查詢的視頻檢索任務,提出一個基於對抗學習方式的跨模態檢索方法——APIVR方法。

首先,對於視頻數據的表示方法,我們新穎地利用行為分類模型R-C3D來提取出基於時序的活動區域段(proposal-based)特徵,並將視頻以活動信息包的形式表達。

然後,針對圖片到視頻包的檢索任務,我們創新性地將基於圖的多示例學習模塊(Graph Multi-Instance Learning)整合到跨模態檢索框架中,用以解決檢索過程中視頻信息包中存在的信息冗餘問題。

本文提出的跨模態檢索框架是基於對抗學習的方式,其中圖片和視頻包首先分別通過一個三層全連接網絡映射到統一的特徵空間中,再由基於幾何投影(Geometry-aware)的三元組損失函數、語義分類損失函數、對抗損失函數共同調整特徵的學習,優化映射空間中圖片和視頻之間的模態差異。模型整體的框架如圖所示。下面將具體介紹APIVR方法的各個模塊。

(1) 映射空間

我們將輸入的圖片表示為q,輸入的視頻包為。考慮到在跨模態檢索任務中,視頻和圖像具有不同的統計屬性和數據分布。我們分別使用兩個映射函數將視頻和圖像特徵投影到一個公共特徵空間中。映射函數定義為:

考慮到全連接層具有豐富的參數保證映射的表達能力,所以本文採用三層全連接層來實現空間映射。根據映射空間學習到的視頻和圖像特徵,APIVR方法首先利用基於圖的多示例模型學習視頻的顯著信息,再利用三種類型的損失函數調整映射空間中的圖像和視頻特徵。

(2) 基於圖的多示例模塊(GMIL)

在本框架中,儘管我們利用R-C3D模型使視頻中儘可能包含所有可能的活動信息,但是,視頻包的表達不可避免地存在與活動信息無關的冗餘信息。如果我們基於整體的視頻標籤利用這些嘈雜的活動信息,則語義學習的質量將極大地降低。

實際上,我們將此問題轉換為多示例學習問題,即,每一個視頻都被視為一個示例包,而每個視頻包中的活動信息被視為一個示例。多示例問題是基於自我注意機制,通過挑選出顯著性示例來更好表達整體的信息。同時我們將圖卷積結構結合到多示例框架中,可以進一步優化每個包中的圖結構信息。

最後,我們得到視頻包中活動信息的加權值作為整體視頻的特徵表達。通過對視頻包中不同的活動信息分配不同的權重值,我們可以將目標更好地放在乾淨的示例上,進一步獲得具有可區別性的視頻特徵表達。

(3) 基於幾何投影(Geometry-aware)的三元組損失函數

本方法採用三元組損失函數來訓練映射空間中的特徵向量,進一步保證不同模態下相似的訓練樣本具有語義相關性。對於一批訓練樣本視頻-圖像對,令每張圖片為樣例,對應的視頻為正樣例,其他類別的視頻為負樣例,則我們得到三元組損失函數為:

其中,m用來約束正負樣例之間的距離,d(x,y)表示x和y之間的距離。在我們任務中,圖像和視頻之間數據結構上的差異使得傳統的相似度度量方法不能直接利用,因此,本方法採用圖像點與其在視頻子空間上的正交投影之間的歐幾里得距離來描述圖像與視頻之間的相似性,進而也保證視頻的結構信息未被丟失。

由於視頻中的冗餘信息會干擾圖像點到視頻子空間的投影準確性,因此,我們提出利用挑選後的視頻活動信息來代替完整的視頻表達。

(4) 語義分類損失函數

為了確保每個模態中的訓練樣本在語義上的區別性,我們還使用語義分類器將模態內訓練樣本從不同類別中分離出來。為了最大程度地減少模態差異,我們對圖像和視頻應用了相同的分類器。但是,將分類器應用於視頻時,視頻中的活動信息存在噪音問題。

因此,我們對分類器的定義會基於我們提出來的基於圖的多示例模塊,視頻表達經過多示例模塊的學習後,可以生成較為乾淨的信息表達。給定一組視頻-圖像對,則語義分類損失函數寫為:

(5) 對抗損失函數

前面介紹的三元組損失函數和語義損失函數的目的是學習語義可區分性的特徵表達,為了進一步保證特徵表達的模態一致性,我們設計一個模態分類器來辨別模態。通過將辨別模態的過程與映射空間中特徵學習的過程相互對抗,進一步縮小圖像和視頻表達之間的差異。

在本方法中,模態分類器通過一個二分類器來實現,用以區分圖像和視頻兩種模態。在映射空間特徵學習的過程中,我們希望在映射空間學習出來的圖像和視頻特徵可以消除模態的差異,只保留語義上的一致性,這樣在模態分類時候會對模態分類器進行混淆,以對抗的方式進行學習。

同時,考慮到在視頻表達中,乾淨的活動信息具有更具表達性的特徵分布,而噪音背景則會分散在整個特徵空間中。因此,我們將模態分類器應用於視頻的加權表達。類似於語義分類損失函數,最後我們得到的對抗損失函數為:

其中,是針對視頻的預測機率模型。由於對抗學習是辨別模態過程和特徵學習過程之間的相互作用,因此,在辨別模態的過程中,我們通過調整模態分類器的參數來最小化對抗損失函數。

相反,在映射空間的特徵學習過程中,我們通過調整全連接層參數和基於圖的多示例模塊參數來最大化對抗損失函數。我們通過極小-極大的訓練方式交替分辨不同的模態和學習映射空間中的特徵表達,訓練目標如下:

實驗結果

我們在三個公共數據集上做了對比實驗,通過和一些通用方法的比較,實驗結果表明我們的模型具有顯著的優越性和良好的通用性。同時,我們對各個模塊進行了定量分析,實驗結果如下:

其中,具體來說,我們設定APIVR (w/o TL), APIVR (w/o AL)和APIVR (w/o CL)分別表示為APIVR方法中消除三元組損失、對抗損失、語義分類損失的三種情況,進一步研究三種類型損失函數的效果和貢獻。並且,為了驗證基於幾何投影相似性方法在三元組損失函數中的效果,我們用向量間的歐式距離來代替點面投影間的距離,並且命名這種情況為APIVR (w/o GA)。

此外,為了驗證我們提出的基於圖的多示例模塊(GMIL)的有效性,我們將GMIL模塊替換成MIL模塊,並且用APIVR(w/o Graph)來表示這種情況。同時,我們還為視頻中每一個活動信息特徵分配統一的權重值,進而代替GMIL模塊學習出來的權重值,命名為APIVR(w/o GMIL)。

從實驗結果可以看出,與對抗損失和三元組損失相比,語義分類損失對性能的影響更大,這證明了語義分類器在我們的模型框架中的重要性。當使用傳統的三元組損失而不是基於幾何投影的三元組損失時,APIVR (w/o GA)的性能會有所下降,這表明保留視頻活動信息的結構信息和幾何屬性對相似性學習是有益的。

此外,我們還可以注意到,APIVR (w/o GMIL)的結果要比完整的APIVR方法效果要差,這證明了我們提出的基於GMIL模塊可以更加關注乾淨的活動信息,並對檢索過程具有好處。最後,我們可以觀察到APIVR(w/o Graph)的性能不及完整的APIVR方法,這表明了將圖卷積層插入MIL模塊的優勢。

為了進一步驗證我們GMIL模塊對挑選有用視頻活動信息的有效性,我們提供了可視化的檢索效果圖如下:

其中,上面的圖為查詢圖片屬於「衝浪」這一類別,下面的圖為查詢圖片屬於「踢球」這一類別。我們為每個查詢圖片列出了前2個檢索到的視頻。對於每個檢索到的視頻,我們將顯示一個由GMIL模塊學習出來的權重最高的圖片序列,和另外兩個權重最低的圖片序列。

顯然,我們可以看出權重最高的圖片可以較好捕獲到查詢圖片上相關活動內容,而其他兩個圖片序列的關聯程度較低,甚至只是包含大量背景內容。由此表明,我們所提出來的GMIL模塊在識別乾淨的視頻信息方面上存在著巨大的優勢。

總結

在本文中,我們提出了一種基於視頻活動區域段表達的跨模態檢索方法,特別地,圖像特徵和基於視頻活動區域段的視頻特徵被投影到由基於幾何投影的三元組損失函數,語義分類損失函數和對抗損失函數共同調整的特徵空間中。

我們創新性地將基於圖的多示例學習模塊整合到跨模態檢索框架中,以解決視頻包信息的噪聲問題,並利用基於幾何投影的相似度度量方法。實驗在基於行為和事件的三個數據集上進行,實驗結果也證明了對比其他方法,我們的方法具有優越性。

更多AAAI 2020信息,將在「AAAI 2020 交流群」中進行,加群方式:添加AI研習社頂會小助手(AIyanxishe2),備註「AAAI」,邀請入群。