DualVD:借鑑認知雙向編碼理論,提出視覺對話新框架 | AAAI 2020

2019-12-28     AI科技評論

作者 | 蔣蕭澤

責編 | Camel

論文標題:DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

文章作者:蔣蕭澤、於靜、秦曾昌、張星星、吳琦等,由北京航空航天大學、中科院信工所、微軟亞研院和阿德萊德大學合作完成。本論文已被AAAI 2020 接收。

論文連結:https://arxiv.org/abs/1911.07251

代碼連結:https://github.com/JXZe/DualVD

論文動機

近年來,跨模態研究引發了廣泛關注並取得顯著進展,綜合分析語言和視覺等不同模態的信息對模擬現實社會中人類對於信息的認知過程具有重要意義。

視覺對話問題是視覺問答任務的衍生任務,不同的是,視覺對話任務需要根據圖像、歷史對話回答當前問題,涉及多個問題且涵蓋了可能與任何對象、關係或語義相關的廣泛視覺內容,因此視覺對話需要根據對話的推進,不斷調整關注區域使之有效地捕捉問題所涉及的視覺信息,針對不同問題對圖像進行自適應的關注

如下圖 1 所示「Q1: Is the man on the skateboard?」, 需要關注「man」,「skateboard」等信息,當問題變換為「Q5: Is the sky in the picture」時,需要將關注區域轉移至「sky」。問題 Q1 和 Q5 主要關注在表層(appearance-level)信息問題,而 Q4「Is he young or older」則需要進一步地視覺推理得到更高層的語義信息。因此,如何根據問題進行自適應調整並有效地捕捉視覺信息是視覺對話問題中的重要挑戰之一。

圖1 DualVD模型基本思想。(左)模型輸入;(右)視覺和語義信息理解模塊。

核心思想

根據認知學中的雙向編碼理論(Dual-Coding Theory), 人類認知信息的過程包含視覺表象和關聯文本,人的大腦在檢索關於某個概念的信息時會綜合檢索視覺信息以及語言信息,這種方式能夠加強大腦的理解以及記憶能力。

作者根據此理論,提出從視覺和語義兩個維度刻畫視覺對話任務中圖象信息的新框架:語義模塊描述圖像的局部以及全局的高層語義信息,視覺模塊描述圖像中的對象以及對象之間的視覺關係。基於此框架,作者提出自適應視覺選擇模型 DualVD(Duel Encoding Visual Dialog),分別進行模態內與模態之前的信息選擇。

模型設計

視覺對話任務:根據給定圖像 I,圖像描述 C 和 t-1 輪的對話歷史 Ht={C,(Q1,A1),...,(Qt-1,At-1)}, 以及當前輪問題 Q 等信息,從 100 個候選答案 A=(A1,A2,...,A100) 中選擇針對當前輪問題 Q 的最佳答案。

作者為解決視覺對話任務所提出的 DualVD 模型框架如圖 2 所示,主要分為 Visual-Semantic Dual Encoding 和 Adaptive Visual-Semantic Knowledge Selection 兩部分。

圖2 DualVD模型框架圖

1、Visual-Semantic Dual Encoding

從視覺以及語義兩個維度刻畫視覺對話任務中圖象信息的新框架,其中語義信息採用多層次語義描述表示,視覺信息採用場景圖表示。

Scene Graph Construction利用場景圖表示每一張圖像,並捕捉圖像之間目標對象以及對象間的視覺關係信息。作者採用 Faster-RCNN 提取出圖像中 N 個目標區域,並將其表示為場景圖上的結點,結點 i 的特徵定義為 hi;採用 Zhang 等提出的視覺關係編碼器在 GQA 數據集上進行預訓練,用關係向量表示圖像中的任意兩個目標區域之間的視覺關係,並將其表示為場景圖上的邊,結點 i 和結點 j 之間的關係向量定義為 r_ij。目前現有的工作大多採用關係類別來表示場景圖的邊,相比而言作者利用關係向量表示場景圖的邊的方法能考慮到視覺關係的多樣性,歧義性,更準確地表達目標對象之前的視覺關係。

Multi-level Image Captions將每幅圖像表示為多層級的語義描述,同時刻畫圖像的局部和全局語義信息。相比於視覺特徵,語義描述通過自然語言的信息表達出更高的語義層次,能夠更加直接地為問題提供線索,避免了不同模態數據之間的「異構鴻溝」。作者採用數據集的圖像描述作為全局語義信息,有助於回答探索場景的問題;採用 Feifei Li 等提出的 DenseCap 提取一組局部層次語義信息,包括對象屬性,與對象相關的先驗知識,以及對象之間的關係等。對全局和局部的語義信息採用不同的 LSTM 提取特徵。

2、Adaptive Visual-Semantic Knowledge Selection

在視覺語義圖像表示的基礎上,作者提出了一種新的特徵選擇框架,從圖像中自適應地選擇與問題相關的信息。在當前問題的指導下,將特徵選擇過程設計為分層模式:模態內選擇首先從視覺模塊(Visual Module)和語義模塊(Semantic Module)分別提取視覺信息和語義信息;然後通過選擇性的視覺-語義融合(Selective visual-semantic fusion),匯聚視覺模塊和語義模塊中問題相關的線索。這種層次結構框架的優點是可以顯式地揭示漸進特徵選擇模式。

Visual Module

1)Question-Guided Relation Attention基於問題引導,獲取與問題最相關的視覺關係。首先,從對話歷史中選擇與問題相關的信息,通過門控機制更新問題表示,定義為:

基於問題新表示Qgt的引導,計算場景圖中每個關係的注意力:

基於注意力aij,更新場景圖中每個關係的嵌入表示:

2) Question-Guided Graph Convolution基於問題引導,通過基於關係的圖注意網絡聚集目標對象的鄰域和對應關係的信息,進一步更新每個目標對象的表示。首先,根據場景圖中的結點,計算該結點i對鄰居結點j之前存在對應關係rij條件下的注意力:

其次,基於注意力βij更新場景圖中每個結點的特徵表示:

3) Object-relation Information fusion:在視覺對話中,目標對象的視覺表層信息和視覺關係信息有助於推斷答案。本模塊中自適應地將原結點和感知關係結點通過門控機制進行融合得到問題相關的目標對象特徵:

為增強原始目標區域的視覺信息提供的線索以及當前問題的影響,作者基於原始目標區域的注意力分布,融合目標區域表示得到增強的圖像表示I:

Semantic Module

該模塊通過問題引導語義注意模塊和全局-局部信息融合模塊,從全局和局部語義描述中選擇和合併與問題相關的語義信息。

1)Question-guided semantic attention:基於問題引導,對全局和局部語義描述計算注意力:

基於注意力δiq分別更新全局和局部語義表示:

2)Global-local information fusion:採用門控機制自適應地融合全局語義表示和局部語義表示

3)Selective Visual-Semantic Fusion:當被提問時,模型能夠檢索相關的視覺信息、語言信息或綜合考慮上述兩種信息。作者採用門控機制控制兩種信息源對於回答問題的貢獻,並獲得最終的視覺知識表示:

3. Late Fusion and Discriminative Decoder

整個模型由 Late Fusion encoder 和 Discriminative decoder 組成。解碼時,模型首先將每個部分嵌入一個對話元組中 D = {I; Ht; Qt},然後將具有視覺知識表示的 Ht 和 Qt 連接到一個聯合的輸入中進行答案預測。解碼器對 100 個候選答案進行排序。該模型還可以應用於更複雜的解碼器和融合策略,如記憶網絡、協同注意等。

實驗結果

在 VisDial v0.9 和 VisDial v1.0 上對模型的效果進行了驗證。與現有算法相比,DualVD 的結果超過現有大多數模型,略低於採用了多步推理和複雜 attention 機制的模型。

消融學習

VisDial v1.0 驗證集的消融研究利用了 DualVD 主要成分的影響。作者使用相同的 Discriminative decoder 做了充分的消融實驗驗證模型各個關鍵模塊的作用, 如 ObjRep(目標特徵)、RelRep(關係特徵)、VisNoRel(視覺模塊去掉關係嵌入表示) 、VisMod(完整視覺模塊)、GlCap(全局語義)、LoCap(局部語義)、SemMod(語義模塊)、w/o ElMo (不用預訓練語言模型)、DualVD(完整模型)。

實驗結果表明,模型中的目標特徵、關係特徵、局部語義、全局語義對於提升回答問題的效果都起到了不同程度的作用。相比傳統圖注意力模型,採用視覺關係的嵌入表示使得模型效果又有了進一步提升。

可解釋性

DualVD 的一個關鍵優勢在於其可解釋性: DualVD 能夠預測視覺模塊中的注意權重、語義模塊中的注意權重以及可視化語義融合中的控制值,顯式地分析模型特徵選擇的過程。作者通過分析可視化結果得出以下結論:

視覺信息和語義信息對於回答問題的貢獻取決於問題的複雜性和信息源的相關性。涉及到目標對象表層信息的問題,模型會從視覺信息獲得更多線索,如圖 3 中第一個例子;當問題涉及到更加複雜的關係推理,或者語義信息包含了直接線索時,模型會更加依賴語義信息獲取答案線索,如圖 3 中的第二個例子。

視覺信息將為回答問題提供更重要的依據。作者根據結果發現,視覺模塊的累積 gate value 總是高於來自語義模塊的累積 gate value, 此現象說明在視覺對話任務中圖像信息在回答問題時扮演更加重要的角色,對圖像信息更準確、更全面的理解對於提升模型的對話能力至關重要。

圖 3 DualVD的可視化

模型能夠根據問題的變化,自適應調整關注的信息。如圖 3 中的第三個例子,隨著對話的推進,問題涉及前景、背景、語義關係等廣泛的視覺內容,DualVD 都能夠有效捕捉到關鍵線索。

文章來源: https://twgreatdaily.com/zh-tw/fBkKT28BMH2_cNUgZTvM.html