鄧力、何曉冬深度解讀:多模態智能未來的研究熱點

2020-06-12     AI科技評論

原標題:鄧力、何曉冬深度解讀:多模態智能未來的研究熱點

作者 | 鄧力、何曉冬

編輯 | 叢末

基於深度學習的機器學習方法已經在語音、文本、圖像等單一模態領域取得了巨大的成功,而同時涉及到多種輸入模態的多模態機器學習研究有巨大的應用前景和廣泛的研究價值,成為了近年來的研究熱點。

論文地址:https://arxiv.org/abs/1911.03977

近期,京東AI研究院的何曉冬博士、京東及英國劍橋大學的張超博士、和美國著名對沖基金Citadel的鄧力博士和楊子超博士就這一前沿研究主題發表了題目為「Multimodal Intelligence: RepresentationLearning, Information Fusion, and Applications」的綜述論文,對主要基於文本和圖像處理的多模態研究,如圖像字幕生成、基於文本的圖像生成、視覺問答、視覺推理等方向的相關研究,從表征學習、信息融合和具體應用三個角度進行了綜述和回顧,並對未來可能的研究熱點進行了分析和展望。

本文作者對多模態視覺與語言信息處理及相關領域有深入研究,近年來提出過包括Image Captioning based on Deep MultimodalSimilarity Model (DMSM, 2015)、Stacked Attention Networks (SAN, 2016)、Bottom-Up and Top-Down Attention (BUTD, 2018)、及Deep Structured Semantic Models (DSSM, 2013)、Hierarchical Attention Networks (HAN, 2016) 等多個重要的模型,引用量均在一千次左右

此次解讀的這篇綜述論文將於近期發表在信號處理和模式識別領域內的頂級刊物IEEE Journal of Selected Topics in SignalProcessing的最新特刊:跨語音、語言、視覺和異構信號的多模態智能深度學習 (Deep Learning for Multimodal Intelligenceacross Speech, Language, Vision, and Heterogeneous Signals) 上。這本特刊從五十多篇投稿中精選彙集了10篇高水平論文,涉及跨文本、圖像、視頻、語音等多模態的各種多元互補的深度學習算法。

以下為正文內容解讀:

從2010年左右首先在語音識別取得重大突破開始,深度學習至今已經先後在圖像識別、目標檢測、機器翻譯、閱讀理解、對話系統等重要領域取得了巨大的成功,創造了一系列創紀錄的結果和全新的研究範式,並推動了近年來人工智慧研究和應用的飛速發展。雖然深度學習推動了語音、語言處理和計算機視覺等單一模態領域的巨大進步,但更多的人工智慧應用場景其實同時涉及到多種模態的輸入特徵。例如理想的個人智能助手需要能夠與人同時通過語音、肢體和圖形語言等進行交流;又比如智能的醫療診斷需要同時「望、聞、問、切」,並綜合許多不同項目的檢測結果給出診斷結果。因此,對多模態人工智慧任務相關的數學模型和訓練方法進行研究具有重大的價值和廣泛的意義。

基於近年來圖像處理和語言理解方面的技術突破,融合圖像和文本處理的多模態任務獲得了廣泛的關注並取得了相當大的成功,例如基於視覺的指代表達理解和短語定位、圖像和視頻字幕生成、視覺問答(VQA)、基於文本的圖像生成、基於語言的視覺導航等。

在這些任務中,自然語言都起到了幫助機器「理解」圖像內容的關鍵作用。這裡「理解」意指發掘文本中蘊含的語義特徵與視覺中蘊含的圖像特徵之間的相關性。除文本外,視覺還常與語音相結合,基於視頻進行諸如語音識別、說話人識別、語音分離和增強等任務。論文主要關注於結合文本和圖像的多模態任務,尤其是近年來一些側重數學模型和訓練方法的相關研究工作。論文主要選取了表征學習、信息融合和具體應用三個角度來分析多模態視覺與語言信息處理領域的核心問題和應用場景,具體來說:

  • 學習輸入特徵的更好的表征是深度學習的核心內容。對於多模態學習,由於收集同時具有所有所需模態的數據往往並不容易,利用模型預訓練技術實現例如零樣本學習(zero-shot learning)或少樣本學習(few-shot learning)是常用的有效策略。論文還介紹了利用有監督或無監督學習的方式來學習多模態表征的內容。

  • 對不同模態表征的融合也是任何多模態任務的關鍵內容。與早先的綜述工作不同,文章沒有將算法按照融合階段的不同分為早期、中期和後期融合,而是按照具體的融合操作來進行了分類,比如基於注意力機制(attention mechanism)或雙線性匯總(bilinear pooling)的方法。這是因為近來流行的基於深度學習的多模態方法,幾乎都可以粗略的歸類為中期融合,但它們具體使用的融合操作卻往往多樣而且複雜。

  • 在具體應用方面,論文主要綜述了三種不同任務,包括:圖像字幕生成、基於文字的圖像生成,以及VQA。這些任務一方面作為例證來說明表征學習和信息融合如何應用於具體的多模態任務,另一方面也闡述了文字和圖像多模態研究的發展過程和趨勢。最後,作為VQA任務的延伸,文章還包括了對視覺推理(visual reasoning)相關工作的介紹。

論文的第二章聚焦表征學習的相關內容。首先對單模態領域表征學習的發展歷程和常用方法做了簡單的回顧,簡介了包括AlexNet、VGG、ResNet、R-CNN、Word2Vec、Glove、GPT、BERT、i-vector、d-vector、x-vector等多種常用的視覺、文本和聲紋單模態表征提取方法。然後介紹了詞向量可以習得句法和語義規律的性質,即用向量代數運算可以表示詞彙語義間的相關性。其中一個著名的例子是vector(國王)-vector(男人)+vector(女人)可以近似得到vector(王后)。類似的還有在圖像表征中發現的例子,vector(男人戴眼鏡)-vector(男人)+vector(女人)=vector(女人戴眼鏡)。這些都說明了表征學習具有強大的威力。

第二章接著詳細回顧了多模態表征的發展歷史和相關工作。早期的多模態表征工作從使用深度玻爾茲曼機進行無監督學習開始,使不同模態的輸入可以映射到相同的表征空間。基於DSSM的方法則可以增強在共同表征空間中每個詞語和對應圖像子區域在語義上的一致性。在有監督學習方法方面,更關注於將各個模態間共有的區分性因子與每個模態內自有的生成性因子做區別處理,既能利用區分性因子改善多模態表征在區分性任務上的性能,又能利用生成性因子彌補數據中的模態缺失問題。零樣本學習是計算機視覺研究中的重要問題,而將文本與圖像映射到具有良好可推廣性的共同表征空間,從而利用文本實現對視覺對象的學習則是零樣本學習的一種有效方式。論文也回顧了多模態零樣本學習的發展歷程和一些有代表性的方法。最後,與零樣本學習相關的,是近年來在自然語言處理中得到復興的預訓練模型的方法,論文還介紹了一些最新的將預訓練的文本BERT模型擴展到文本、圖像多模態處理的方法,以及基於Transformer結構直接構建多模態預訓練模型的方法。

論文的第三章關注多模態信息融合。與目標為獲得對多個下游任務都具有一般價值的多模態表征學習相區別,信息融合側重於針對特定任務目標對多個單模態表征進行融合的具體結構和方法。論文中綜述的所有融合方法幾乎都屬於中期融合,但根據具體融合操作不同,可以粗略的劃分為基於拼接和線性組合等簡單融合操作的方法、基於注意力機制的融合方法和基於雙線性匯總的融合方法。在基於注意力機制的融合方法方面,早期的工作側重於使用文本做查詢來對圖像應用注意力機制,代表性的方法包括基於編碼器-解碼器結構的Show, Attend, and Tell、SAN、和同時包含了雙向注意力機制的BUTD等。近來,以共注意力機制(Co-attention)為代表的,在圖像和文本間形成對稱結構的注意力機制變得更為流行,常見的方法包括平行共注意力方法(Parallel Co-attention)、交替共注意力方法等(Alternating Co-attention)。最近,共注意力機制還被整合到多模態的BERT模型等結構中。一些其它的類似注意力的機制,如門控(Gating)、向量元素級乘法、動態權值矩陣等,也被應用於多模態信息融合。

除注意力機制外,雙線性匯總也是近年來非常流行的多模態信息融合方法。與注意力機制、門控機制等基於的線性加權組合或向量元素相乘的方法不同,雙線性匯總計算待融合的目標向量的外積,從而對向量間任何元素的組合都分別進行權衡並引入更多的模型參數,以實現更強大的信息融合。正因如此,雙線性匯總面臨的主要問題之一是如何有效計算通過向量外積引入的眾多參數以避免過擬合等問題。一些流行的雙線性匯總方法通過對向量外積做不同類型的低秩矩陣分解或張量分解等方式來解決這一問題。最近,雙線性匯總還被與注意力機制相結合,以更好的融合序列化的多模態信息。

論文的第四章主要綜述了圖像字幕生成、基於文本的圖像生成,以及VQA三個不同的任務。圖像字幕生成要求生成一副圖像對應的文本描述。傳統的方法可以使用CNN檢測圖像內容生成對應詞彙,再利用語言模型將詞彙轉換為完整語句。使用單一模型實現端到端字幕生成的方法,如Show and Tell、Show,Attend, and Tell等通常基於編碼器-解碼器(Encoder-Decoder)結構,利用編碼器提取圖像特徵,再利用解碼器從中解碼生成描述文本。圖像中包含的先驗知識也是字幕生成需要考慮的重要因素,例如名人外貌等等,都可以作為外部知識庫整合到系統中。此外,相關研究還涉及到對生成字幕的文風、內容、以及文本多樣性等進行顯式控制。

第四章的第二部分討論與圖像字幕生成具有相反輸入輸出的應用:基於文本的圖像生成。在這一任務中,除早期常使用長短時記憶模型或變分自編碼器外,最近的方法已普遍基於生成式對抗網絡(Generative Adversarial Networks, GAN),在這種方法中,生成器讀取輸入文本等控制信息作為初始信號生成圖像,區分器作為模型式的判定準則判定生成的圖像是否足夠真實。較早的方法在生成器和區分器中引入類別標籤作為控制信息,不久之後研究發現可以將更一般的使用自然語言書寫的語句轉換為文本表征來取代類別標籤控制圖像生成。為了生成更真實、解析度更高的圖像,StackGAN方法使用了串行堆疊多個GAN,並通過每個GAN逐漸提高圖像解析度的策略。Progressive GAN則引入了類似課程學習(Curriculum learning)的思路,從訓練一層的低解析度生成器和區分器開始,逐漸增加兩個模型的層數,從而逐步提高生成圖像的精度。除生成圖像的解析度外,AttnGAN在GAN的基礎上設計引入了注意力機制,以精細控制生成圖片的局部細節,使之與文字描述在語義上相吻合。最後,基於這些模型,可以進一步使用語義布局等額外輸入控制GAN生成更複雜的場景構圖,例如Obj-GAN方法。

第四章的最後兩部分綜述VQA及視覺推理任務。文章首先總結了VQA任務常用的不同定義和數據集,包含不同的問題和答案類型等。例如給定輸入圖像,以及用自然語言描述的關於圖像內容的問題後,VQA可以定義為根據輸入給出詞表內某個詞彙作為答案的分類任務。文章前述的信息融合方法,例如基於注意力機制或雙線性匯總的方法,很多都是在VQA任務中提出的。文章也涉及了其它一些VQA研究中遇到的重要問題,如利用外部的知識庫、避免訓練數據中問題和答案可能存在的先驗偏差、對問題和答案進行同義改寫、以及讓VQA能夠識別圖像中包含的文字等。視覺推理是在包含了複雜空間、位置、邏輯關係等問題的VQA基礎上發展出來的,SAN方法一般被認為是較早的包含視覺推理的方法。在神經模塊網絡( Neural Module Network, NMN)中包含若干模塊化的子網絡,分別對應基本操作或邏輯關係,這些子網絡按照輸入問題被解析器解析的結果動態組織成一個新的模型,通過在新模型上進行前向傳播來實現端到端的邏輯推理。NMN方法被廣泛使用並不斷改進作為其他方法的基礎。文章還簡介了其它一些端到端的視覺推理方法,如基於門控記憶單元和注意力機制來構造邏輯推理單元的方法,以及在視覺表征空間上通過確定性形式化推理程序進行推理的方法等。

論文的最後分別對多模態知識學習、多模態情感智能以及任務導向的大規模複雜多模態人機互動系統等前沿方向的發展進行了展望。當前已經出現了一些具有多模態信息的資料庫,比如MS-Celeb-1M,其中包含了百萬級世界知名人物的面部視覺信息及人物實體對應的諸如職業、生平等相關知識信息,可用來支持跨模態的知識學習並強化圖像字幕生成等應用。未來,多模態知識學習可定位於從海量的視頻等多模態數據中學習獲得實體、行為、屬性、關係等信息來構建結構化的常識知識庫,從而進行一般的常識推理。這一方向涉及到的難點包括:

  • 如何定義常識;

  • 如何構建多模態資料庫並從中有效的學習常識;

  • 如何設計應用的任務,使得能夠在體現常識重要性的前提下容易驗證新算法的有效性;

  • 如何更新已經學到的常識。

  • 如何接收和對齊匹配不同模態間的微妙情感;

  • 如何保證不同模態間數據的一致性和合理性;

  • 如何獲得與特定模態無關的關於情感類型和強度的核心表征。

最後,在任務導向的大規模複雜多模態人機互動系統方面,需要探索如何將這類系統應用於智能化服務行業。以電子商務為例,實際應用中面臨著超大規模的真實用戶數據以及涵蓋了整個零售鏈的複雜的人機互動過程。為促進更普遍的服務行業的智能化,應該關注以下一些問題:

  • 如何推進多模態人機互動系統的開源和開放許可框架的構建;

  • 如何構建大規模的數據集和算法驗證平台;

  • 如何開展對多模態智能的基礎研究。

最後,論文的作者認為,雖然多模態智能研究已經取得了重大進展,並成為了人工智慧發展的一個重要分支,但如果以構建能夠感知多模態信息並利用不同模態之間的聯繫來提高其認知能力的智能體為最終目標,關於多模態智能的研究仍處於起步階段,其中既面臨著巨大的挑戰,也存在著巨大的機遇

招 聘

文章來源: https://twgreatdaily.com/kPzqrHIBnkjnB-0zKpdB.html