10個2019年的機器學習和NLP的研究亮點

2020-01-18     AI公園

作者:Sebastian Ruder

編譯:ronghuaiyang

導讀

10個2019年的機器學習和NLP的研究亮點。

這篇文章收集了 10 個 ML 和 NLP 研究方向,我發現它們在 2019 年令人興奮和有影響力。

每一個亮點,我總結了今年的主要進展,簡要說明為什麼我認為它是重要的,並提供了一個簡短的展望未來。

完整的亮點列表如下:

  1. 普遍的無監督預訓練。
  2. 彩票假說
  3. 神經正切核
  4. 無監督多語種學習
  5. 更多魯棒的 benchmarks
  6. 科學上的機器學習和 NLP
  7. 修復 NLG 中的解碼錯誤
  8. 預訓練模型增強
  9. 高效和長期的 Transformers
  10. 更可靠的分析方法

1、普遍的無監督預訓練

發生了什麼事?今年 NLP 普遍存在無監督的預訓練,主要由 BERT 和其他變體驅動。一系列的 BERT 變體已經應用於多模態設置,主要涉及圖像和視頻以及文本(如下圖所示)。無監督的訓練也侵入了以前監督占主導地位的領域。在生物學中,Transformer 語言模型已經被用在預訓練蛋白質序列上。在計算機視覺中,自監督方法包括 CPC,MoCo,和 PIRL 研究了強大的生成模型,例如 BigBiGAN 來提高抽樣效率和 ImageNet 和圖像生成。在演講中,使用多層 CNN 或雙向 CPC 的方法得到了 state-of-the-art 的模型。

為什麼它很重要?無監督的預訓練使用很少的標註樣本進行訓練。這在許多不同的領域打開了新的應用,這些領域的數據需求以前是禁止的。

接下來是什麼?無監督的訓練將持續下去。雖然到目前為止在個別領域已經取得了最大的進展,但看到更多地集中於更緊密地綜合多種模式將是有趣的。

VideoBERT ,一個多模態的BERT變體生成的視頻「tokens」(上)和未來的tokens在不同的時間尺度交付一個視頻token(下)。

2、彩票假說

發生了什麼?Frankle 和 Carbin 發現了中獎彩票假說,在密集的、隨機初始化的、前饋網絡中的子網絡,它們的初始化非常好,以至於單獨訓練它們可以達到與訓練整個網絡類似的精度,如下圖所示。雖然最初的剪枝過程只適用於小的視覺任務,但是後來的工作將剪枝應用於早期的訓練而不是初始化,這使得尋找更深層次模型的小的子網絡成為可能。Yu 等人(2019)發現了 LSTMs 和 Transformers 在 NLP 和 RL 模型中的中獎初始化。雖然中獎彩票仍然在計算上很貴,但它們似乎可以在數據集和優化器之間遷移。

為什麼它很重要?最先進的神經網絡越來越大,訓練和預測的成本也越來越高。能夠始終如一地識別小的子網絡,從而獲得可比較的性能,這使得使用更少的資源進行訓練和推理成為可能。這可以加速模型疊代,並在設備上和邊緣計算中開闢新的應用。

接下來是什麼?識別中獎彩票目前仍然計算上太貴,無法在資源匱乏的環境中提供真正的好處。更健壯的一次性剪枝方法在剪枝過程中對噪聲的敏感性更低,應該可以緩解這一問題。研究中獎彩票的特別之處還有助於我們更好地理解神經網絡的初始化和學習動態。

中獎彩票(實線)與隨機抽樣子網(虛線)在不同剪枝率下的測試準確性

3、神經正切核

發生了什麼?與直覺相反,非常寬(更具體地說,無限寬)的神經網絡在理論上比窄神經網絡更容易研究。結果表明,在無限寬極限下,神經網絡可以近似為具有某種核的線性模型,即神經正切核(NTK)。參考這篇文章:https://rajatvd.github.io/NTK/可以得到對NTK的直觀解釋,包括它的訓練動態的說明(見下圖)。在實踐中,這些模型表現不如有限深度模型,這限制了將研究結果應用於標準方法。近期工作已經大大減少了與標準方法的性能差距。

為什麼它很重要?NTK 可能是我們所掌握的分析神經網絡理論行為的最強大工具。雖然它有其局限性,即實用的神經網絡仍然比 NTK 網絡表現得更好,而且迄今為止的見解還沒有轉化為經驗上的收穫,但它可能有助於我們打開深度學習的黑盒子。

接下來是什麼?與標準方法的差距似乎主要是由於這些方法的有限寬度的好處,這是未來的工作可能尋求的特點。這也將有助於將無限寬度限制的見解轉化為實際的設置。最終,NTK 可能幫助我們闡明神經網絡的訓練動力學和泛化行為。

學習動態線性模型的NTK不同α因子。NTKs被可視化為橢圓

4、無監督多語種學習

發生了什麼?多年來,跨語言表征主要集中在詞彙層面。在無監督 pretraining 進步的基礎上,今年看到了深度跨語言模型的開發等多語種 Bert, XLM 和 XLM-R。儘管這些模型沒有使用任何顯式的跨語言信號,但它們在跨語言之間的通用性驚人地好 —— 即使沒有共享詞彙或聯合訓練。這種深度模型也帶來了無監督 MT 的改進,看到改進的原則性更強的組合統計和神經的方法。另一個令人興奮的發展是,從現成的預訓練的英語表示中,引導深層多語言模型,如下圖所示。

為什麼它很重要?即時可用的跨語言表示使模型的訓練與較少的例子以外的語言的英語。此外,如果有英文標籤數據,這些方法基本上可以實現零距離傳輸。它們可能最終幫助我們更好地理解不同語言之間的關係。

接下來是什麼?在沒有任何跨語言監督的情況下,這些方法為何能如此有效仍不清楚。更好地理解這些方法是如何工作的,可能會使我們設計出更強大的方法,也可能揭示出關於不同語言結構的見解。此外,我們不僅應該關注零樣本遷移,還應該考慮從目標語言中少數有標籤的例子中學習。

單個語種遷移的四個步驟

5、更加魯棒的 benchmarks

發生了什麼事?最近的 NLP 數據集,如 HellaSWAG 對於最先進的模型也是很難的。樣本由人工篩選,以明確保留那些最先進的模型失敗的樣本(參見下面的示例)。這種把人包括在循環中的對抗管理過程可以重複多次,例如在最近的對抗 NLI 基準測試中,使創建數據集對當前方法更具挑戰性。

為什麼它很重要?許多研究人員發現,目前的 NLP 模型沒有學習它們應該學習的內容,而是採用了淺層的啟發方法,利用數據中的淺層線索。隨著數據集變得更加健壯,我們希望模型最終能夠了解數據中真正的底層關係。

接下來是什麼?隨著模型的改進,大多數數據集需要不斷改進,否則很快就會過時。將需要專用的基礎設施和工具來促進這一進程。此外,應該運行適當的基線,包括使用不同數據變體的簡單方法和模型(例如不完整的輸入),以便數據集的初始版本儘可能健壯。

來自HellaSWAG的一個選擇句完成示例,這對於最先進的模型來說是很難回答的。最困難的例子是複雜的「Goldilocks zone」,大致由三句上下文句子和兩句生成的句子組成。

6、科學中的機器學習和 NLP

發生了什麼?在應用於基礎科學問題方面已經取得了一些重大進展。我的研究重點是深度神經網絡在蛋白質摺疊和多電子薛丁格方程中的應用。在 NLP 方面,看到標準方法與領域專家相結合所產生的影響是令人興奮的。一項研究使用詞嵌入來分析材料科學文獻中的潛在知識,可以用來預測哪些材料將具有某些特性(見下圖)。在生物學中,許多數據如基因和蛋白質在本質上是連續的。因此,它自然適合於 LSTMs 和 transformer 等 NLP 方法,這些方法已被應用於蛋白質分類。

為什麼它很重要?科學可以說是 ML 最有影響力的應用領域之一。解決方案可以對許多其他領域產生很大的影響,並可以幫助解決實際問題。

接下來是什麼?從物理問題中的能量建模到微分方程求解。到 2020 年,看看這些措施中最具影響力的將是什麼,將是一件有趣的事情。

在不同時期的摘要中使用詞嵌入來預測在未來的摘要中將研究哪些材料,如鐵電(a)、光電(b)和拓撲絕緣體(c)。與所有候選材料相比,前50名的預測更有可能被研究。

7、修復 NLG 中的解碼錯誤

發生了什麼事?儘管自然語言生成(NLG)模型的功能越來越強大,但它仍然經常產生重複或胡言亂語,如下圖所示。這主要是最大似然訓練的結果。我很高興看到旨在改善這一點的改進,並且與建模的進展是正交的。這些改進以新的抽樣方法的形式出現,比如核抽樣和新的損失函數。另一個令人驚訝的發現是,更好的搜索並不能產生更好的結果:當前的模型在一定程度上依賴於不完美的搜索和波束搜索錯誤。相反,在機器翻譯的情況下,精確搜索通常會返回空翻譯。這表明,搜索和建模方面的進步必須經常攜手並進。

為什麼它很重要?自然語言生成是自然語言處理中最基本的任務之一。在 NLP 和 ML 的研究中,大多數論文都集中在對模型的改進上,而其他部分的 pipeline 往往被忽略。對 NLG 來說,重要的是要提醒我們自己,我們的模型仍然有缺陷,可能通過修正搜索或訓練過程來改進輸出。

接下來是什麼?儘管有更強大的模型和成功的應用轉移學習到 NLG,模型預測仍然包含許多人工干預。識別和了解這些人工干預的成因是一個重要的研究方向。

8、預訓練模型增強

發生了什麼事?我很興奮地看到方法,裝備了預訓練的模型的新能力。有些方法利用知識庫來增強預訓練的模型,以改進實體命名的建模。其他的還有通過給它訪問一些預定義的可執行程序,讓模型能夠執行簡單的算術推理。因為大多數模型和對於他們學習的大部分知識數據有一個微弱的偏差,擴展 pretrained 模型的另一種方法是通過增加訓練數據本身,如捕捉常識。

為什麼它很重要?模型正變得越來越強大,但有許多事情是模型不能單獨從文本中學習的。特別是在處理更複雜的任務時,可用的數據可能太有限,無法使用事實或常識進行明確的推理,因此可能需要更強的歸納偏見。

接下來是什麼?隨著模型被應用於更有挑戰性的問題,越來越有必要對模型進行組合性的修改。在未來,我們可能會將強大的預訓練模型與可學習的組合程序相結合。

Transformer與多頭注意力。該模型被訓練成在給定對象和關係的情況下預測知識庫的對象

9、高效和長期的 Transformers

發生了什麼 ?這一年看到的 Transformer 改進。Transformer-XL 和壓縮的 Transformer 可以更好的獲取長期的依賴關係。有一些方法讓 Transformer 更加的高效,比如使用 sparse 和 attention 的方法,或者 adaptively sparse attention,adaptive attention spans,product-key attention,locality-sensitive hashing。在基於 Transformer 的預訓練陣線上,有更加高效的變體 ALBERT,使用了參數共享和 ELECTRA,使用了更加高效的預訓練任務。也有沒有使用 Transformer 的更加高效的預訓練模型,比如 unigram document 模型 VAMPIRE 和 QRNN-based MultiFiT。另外一個趨勢是將大的 BERT 蒸餾成更小的模型。

為什麼它很重要?Transformer 自產生以來就影響廣泛。一直是大多數的 state-of-the-art 模型的一部分,在 NLP 和廣泛的領域中都有著成功的應用。對 Transformer 的任何改進都會有強大的連帶效應。

接下來是什麼?這些改進需要一些時間來滲透到從業人員中,但它提供了優先級和更容易使用的預訓練模型,更有效的替代方案將很快被採用。除此之外,我們將看到繼續關注模型架構的效率,透明度是一個關鍵趨勢。

Transformer 將(對過去激活的細粒度記憶)壓縮為更粗粒度的壓縮記憶

10、更可靠的分析方法

發生了什麼事?今年的一個主要趨勢是分析模型的論文數量不斷增加。事實上,我今年最喜歡的幾篇論文就是這樣的分析論文。早期的一個亮點是 Belinkov 和 Glass(2019)]對分析方法的優秀調研。今年也是(在我的記憶中)第一次有許多論文致力於分析單個模型,這樣的論文被稱為 BERTology。可靠性也是正在進行的關於注意力是否能提供有意義的解釋的討論中的一個主題。對分析方法的持續興趣最好的例證可能是關於 NLP 中模型的可解釋性和分析的新 ACL 2020 track。

為什麼它很重要?最先進的方法被用作黑盒。為了開發更好的模型並在現實世界中使用它們,我們需要理解為什麼模型會做出某些決策。然而,我們目前解釋模型預測的方法仍然有限。

接下來是什麼?我們需要做更多的工作來解釋那些超出想像的預測,因為想像通常是不可靠的。這一方向的一個重要趨勢是,越來越多的數據集提供了人寫的解釋。

在表征中研究語言知識的探測裝置

英文原文:https://ruder.io/research-highlights-2019/

文章來源: https://twgreatdaily.com/zh-sg/FUOYv28BjYh_GJGVHue9.html