ACL2020 論文獎項出爐,微軟團隊獲最佳論文獎

2020-07-09     AI科技評論

原標題:ACL2020 論文獎項出爐,微軟團隊獲最佳論文獎

作者 | 陳大鑫

編輯 | 叢 末

今天,ACL2020的論文獎項已全部出爐,共八篇文章獲獎,包含一篇最佳論文、兩篇最佳論文榮譽提名、一篇最佳主題論文、一篇主題論文榮譽提名、一篇最佳 Demo 論文、兩篇最佳Demo榮譽提名。

其中拿下最佳論文獎的論文是《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》,獲獎團隊來自微軟研究院、華盛頓大學、加利福尼亞大學爾灣分校。該論文代碼在兩個月前就已開源:

  • https://github.com/marcotcr/checklist

本次ACL論文獎項情況如下:

最佳論文:《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》(超越準確性:NLP模型的CheckList行為測試)

論文地址:https://www.aclweb.org/anthology/2020.acl-main.442/

開原始碼:https://github.com/marcotcr/checklist

獲獎團隊:微軟研究院、華盛頓大學、加利福尼亞大學爾灣分校。其中值得一說的是華人學生吳彤霜為論文二作。

獲獎理由:

  • 我們沉迷於評估模型的各種性能......但我們可以做得更好。作者提議超越基於準確性的指標,轉向「行為測試」
  • 使用他們的CheckList 方法論和工具來更好地評估任何NLP應用
  • 該方法適用於多個SOTA學術和商業系統

論文摘要:

雖然度量支持精度是評價泛化的主要方法,但它往往高估了NLP模型的性能,而用於評估模型的替代方法要麼側重於單個任務,要麼側重於特定的行為。受軟體工程中行為測試原理的啟發,我們介紹了一種用於測試NLP模型的不確定任務的方法。檢查表包括一個通用語言能力和測試類型的矩陣,有助於全面的測試構思,以及快速生成一個包含大量不同測試用例的軟體工具。我們用三個任務的測試來說明檢查表的效用,識別商業和最先進模型中的關鍵故障。在一項用戶研究中,一個負責商業情緒分析模型的團隊在一個經過廣泛測試的模型中發現了新的、可操作的錯誤。在另一個用戶研究中,使用CheckList的NLP實踐者創建了兩倍多的測試,發現的bug幾乎是沒有檢查表的用戶的三倍。

最佳論文榮譽提名一:《Don』t Stop Pretraining: Adapt Language Models to Domains and Tasks》(不要停止預訓練:使語言模型適應不同領域和任務)

論文地址:https://www.aclweb.org/anthology/2020.acl-main.740/

開原始碼:https://github.com/allenai/dont-stop-pretraining

獲獎理由:

  • 展示了在任務領域的預訓練模型比廣泛覆蓋(通用)模型表現更好
  • 第二階段的領域自適應預訓練和任務自適應的預訓練能在很多領域和任務上提高性能

論文摘要:

在各種來源的文本上預訓練的語言模型是當今NLP的基礎。鑒於這些廣泛覆蓋模型的成功,我們研究定製一個預先訓練的模型以適應目標任務的領域是否仍然有幫助。我們提出了一項跨四個領域(生物醫學和計算機科學出版物、新聞和評論)和八個分類任務的研究,表明在高資源和低資源環境下,第二階段的預訓練indomain(領域適應性預訓練)可以提高性能。此外,適應任務的未標記數據(任務自適應預訓練)即使在域自適應預訓練之後也能提高性能。最後,我們證明了使用簡單的數據選擇策略來適應擴充的任務語料庫是一種有效的選擇,特別是當領域自適應預訓練的資源不可用時。總的來說,我們一致地發現多階段自適應預訓練在任務性能上有很大的提高。

最佳論文榮譽提名二:《Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics》(深入於BLEU:重新評估自動機器翻譯評估指標的評估)

論文地址:https://www.aclweb.org/anthology/2020.acl-main.448/

獲獎理由:

  • 當前MT(機器翻譯)評價方法對使用的評估方法是敏感的
  • BLUE在比較高質量系統時容易被誤導

論文摘要:

自動指標/度量(Automatic metrics)是機器翻譯系統開發和評估的基礎。評判自動指標是否以及在多大程度上符合人類評價的黃金標準並不是一個直接的問題。我們發現,目前用於評判指標的方法對用於評估的翻譯非常敏感,尤其是存在離群值的時候,這通常會導致對指標的有效性得出錯誤自大的結論。最後,我們轉向成對系統排名,我們開發了一種針對人為判斷的自動指標下的性能改進閾值方法,該方法允許量化所產生的I類錯誤和II類錯誤,即可接受的系統質量中的不重要的人為差異,以及人類的顯著差異。總之這些發現對機器翻譯中的指標評估和系統性能評估協議提出了改進建議。

最佳主題論文:《Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data》(邁向NLU:關於數據時代的意義,形式和理解)

論文地址:https://www.aclweb.org/anthology/2020.acl-main.463/

獲獎理由:

  • 在揭示SOTA方法的局限性的同時,對自然語言理解領域的進展進行了豐富的闡述
  • 定位:一個僅僅像之前形式訓練的系統沒法學到「意義」
  • 我們領域未來方向的絕佳起點

論文摘要:

大型神經語言模型在許多NLP任務上的成功是令人興奮的。然而,我們發現,這些成功有時會導致炒作,這些模型被描述為「理解」語言或捕捉「意義」。在這篇論文觀點中我們認為,一個只訓練在形式上的系統在先驗上是沒有辦法學習到意義的。為了與ACL2020主題「回顧過往&展望未來」保持一致,我們認為,對形式和意義之間的區別的清晰理解將有助於引導該領域朝著圍繞自然語言理解的方向發展。

最佳主題論文榮譽提名:《How Can We Accelerate Progress Towards Human-like Linguistic Generalization?》(我們怎樣才能加速向「類人類」語言泛化的進程?)

論文地址:https://www.aclweb.org/anthology/2020.acl-main.465/

獲獎理由:

  • 讓我們深思使用pipeline預訓練的流程搭建和評估NLP模型的適當性
  • 提議:讓我們重新思考我們當前的範式和評估性能關於樣本效率、可解釋性和規範性評價

論文摘要:

本文描述並批判了預訓練前不可知的同分布(PAID)評估範式,它已成為衡量自然語言理解進步的一個核心工具。該範式包括三個階段:

(1)在任意大小的語料庫上預訓練單詞預測模型;

(2)對表示分類任務的訓練集進行微調(遷移學習);

(3)對與訓練集相同分布的測試集進行評估。

這種範式傾向於簡單、低偏差的體系結構,首先,我們可以對其進行擴展以處理大量數據;其次,可以捕獲特定數據集的細粒度統計屬性,不管這些屬性是否可能推廣到數據集之外的任務示例。這與人類形成了鮮明對比,人類從比這種評估範式所支持的系統少幾個數量級的數據中學習語言,並且以一致的方式推廣到新任務。我們提倡用獎勵架構的範例來補充或取代PAID,這種架構能像人類一樣快速而有力地進行推廣。

最佳DEMO論文:《GAIA: A Fine-grained Multimedia Knowledge Extraction System》(GAIA: 細粒度多媒體知識提取系統)

論文連結:https://www.aclweb.org/anthology/2020.acl-demos.11/

開源地址:https://github.com/GAIA-AIDA

獲獎理由:

  • 提出了一個經過嚴格測試的新穎多媒體、多語言知識提取系統
  • 合併了一些SOTA模型的組件
  • 優秀的在線演示,視頻和開原始碼

論文摘要:

我們提出了第一個全面的、開源的多媒體知識提取系統,它以來自不同來源和語言的大量非結構化、異構的多媒體數據流為輸入,創建一個連貫的、結構化的知識庫、實體、關係和事件,並 循一個豐富的、細粒度的本體。我們的系統GAIA可以無縫搜索複雜的圖形查詢,並檢索多媒體,包括文本、圖像和視頻。GAIA在最近的NIST TAC SM-KBP2019評估中取得了最佳性能。該系統可在GitHub和DockerHub公開,並提供完整的文檔。

最佳DEMO論文榮譽提名一:《Torch-Struct: Deep Structured Prediction Library》(Torch結構:深層結構預測庫)

論文連結:https://www.aclweb.org/anthology/2020.acl-demos.38/

開原始碼:https://github.com/harvardnlp/pytorch-struct

獲獎理由:

  • 面向深度學習的結構化預測信息豐富庫
  • 令人印象深刻的模型和算法,為GPU硬體優化
  • 在結構化預測和NLP中激發許多有趣的想法

論文摘要:

關於NLP的結構化預測的文獻描述了大量關於序列、分段、對齊和樹的分布和算法的集合;然而這些算法很難在深度學習框架中使用。我們介紹了Torch Struct,一個用於結構化預測的庫,旨在利用和集成矢量化、基於自動微分的框架。TorchStruct包括廣泛的機率結構集合,通過一個簡單靈活的基於分布式的API訪問,該API可連接到任何深度學習模型。該庫利用批處理、矢量化的操作,並利用自動微分來生成可讀、快速和可測試的代碼。在內部,我們還包含一些通用優化,以提供跨算法的效率。實驗表明與快速baseline相比,我們的性能顯著提高。案例研究證明了庫的好處。TorchStruct可在https://github.com/harvardnlp/pytorch-struct

最佳DEMO論文榮譽提名二:Prta: A System to Support the Analysis of Propaganda Techniques in the News(Prta:一個支持分析新聞宣傳技術的系統)

論文連結:https://www.aclweb.org/anthology/2020.acl-demos.32/

項目地址:https://www.tanbih.org/prta

獲獎理由:

  • 在線系統的宣傳/說服技術分析、可視化
  • 深思熟慮、能言善辯的前期研究討論,以及注釋架構的基礎
  • 宣傳、假新聞、整體謠言的區別

論文摘要:

最近發生的事件如2016年美國總統競選、英國脫歐以及COVID-19「信息傳播」等,都讓人們看到了網絡造謠的危險性。有很多研究集中在事實核查和虛假信息檢測上。然而,人們很少注意到用於傳達宣傳信息的具體修辭和心理技巧。揭示這些技巧的使用有助於提高媒體素養和批判性思維,最終有助於限制「假新聞」和造謠傳播的影響。Prta(promotional consulting technologies Analyzer)允許用戶通過突出宣傳技巧發生的跨度來定期瀏覽所爬蟲的文章,並根據他們使用的宣傳技巧進行比較。該系統還根據用戶、根據時間間隔、關鍵字和媒體的政治傾向指定的過濾標準,報告關於這些技術的總體和長期使用的統計數據。此外,它允許用戶通過專用接口或API分析任何文本或URL。

在頒獎環節之後,組委會宣布EMNLP 2020為線上進行。

組委會歡迎大家參加第一屆ACCL大會!

2021ACL-IJCNLP在泰國曼谷舉行!

點擊"閱讀原文",直達「ECCV 交流小組」了解更多會議信息。

文章來源: https://twgreatdaily.com/zh-cn/J2t7NHMBiuFnsJQV7oV2.html