作者 | Wei Zhao
編譯 | 楊曉凡
編輯 | 唐里
前有美國、加拿大引領理論創新,後有中國在實際應用上緊追猛趕,歐洲學術圈在深度學習時代的存在感並不怎麼強。一個這樣的會可以看做是報團取暖,更可以看做是鼓勵更多交流和創新。
在深度學習的熱潮推動下,人工智慧的各個相關領域都展現出勃勃生機,學術會議也一個緊接著一個。今年十月上旬,在甘肅敦煌舉行的以中文語言計算為特點的 NLPCC 2019 才剛剛落幕,首屆歐洲 NLP 會議 EurNLP 就於 11 日在英國倫敦舉行。根據會議官方介紹,EurNLP 關注學術界和工業界出現的真實世界 NLP 問題,讓歐洲的青年學者和專家們齊聚一堂,討論基礎科研和實證研究話題。
本次為期一天的首屆 EurNLP,暨 EurNLP 2019,有大約 200 人參加,共收到 179 篇有效論文投稿,接收論文 57 篇(接收率 31.8%)。會議議程包括 1 個大會報告、4 場論文報告以及 1 個圓桌討論。除此之外,會議也安排了一個論文海報討論環節,供學生、研究者們可以自由地展開討論;這些論文的主題也多種多樣,包括了多語言性、語言中的偏倚、機器學習、多模態、文本生成等等。
德國達姆施塔特工業大學的 Wei Zhao 現場參加了 EurNLP 2019,並和德國海德堡大學&哈爾濱工業大學的 Haixia Chai 共同撰文寫下了他們的參會見聞和亮點總結,這篇文章主要介紹了演講和圓桌部分。AI 科技評論進行了全文翻譯,有部分刪改。
Vera Demberg:NLP 是否需要更多地考慮語言處理中的具體區別?
在演講中,Vera Demberg 討論了人類標註中出現的不統一問題,研究了人類標註的變化是否是系統的、是否在不同的時刻保持一致、是否和特定的因素相關(比如語言經驗和任務知識)。Scholman 和 Demberg 的論文表明不同的參與者在連詞填空問題中給出的答案有很大的區別,而 Sanders 等人讓參與者前後間隔幾個月做重複做同一個實驗,表明人類標註員的表現不會隨著時間變化。
Dirk Hovy:層數越多,責任越大
這個演講中解釋了各種可能帶來模型偏倚的因素,比如數據選擇、人類標註以及模型變化,而且介紹了過去幾十年中從啟發式的、基於邏輯的模型,到統計性的、神經網絡形式的模型的 AI 發展歷程。他著重強調了一個觀點:現代的神經網絡模型可以處理語言生成之類的真實世界的複雜問題,但是想要解決我們目前遇到的可信任、可解釋、可靠性、公平性問題還遠遠不夠。
Joakim Nivre:有監督句法分析快要壽終正寢了嗎?還有大概 12 年吧
這個演講是關於依存句法分析的。演講中首先回顧了依存句法分析的歷史,包括了基於圖的(graph-based)和基於轉換的(transition-based)分析器。Kulmizev 等人的論文表明這兩類解析器在短程依存關係上有類似的表現,但是隨著依存關係的長度增加,基於轉換的分析器由於錯誤傳播的原因會出現更明顯的表現下降(如下圖);另外,這兩種方法在運用在 BERT 模型中時的準確率區別並不大。Joakim Nivre 希望未來的句法分析可以找到結構預測的一些替代方法,而且最好能夠不再需要顯式的監督。
Bonnie Webber:隱式論述關係可以和顯式關係共同存在
在這個演講中,Bonnie Webber 介紹了顯式信號和隱式推理會讓論述關係的標註有所不同。這篇論文通過介詞填空任務的實驗表明了這一點。下圖展示了某個例子中不同的標註員會給出不同的答案,但這些不同的答案可能並不是錯誤。
Natalie Schluter:神經網絡句法解析看起來真簡單,真的是這樣嗎?
這個演講的重點是基於圖神經網絡的解析器的計算複雜度問題,Natalie Schluter 給出了一種正式的證明,證明在指數時間猜想(Exponential Time Hypothesis)下,射影最大生成樹(maximum spanning tree)的解碼算法無法在小於三次方時間內完成,Natalie Schluter 還討論了 Eisner 算法以及用循環神經網絡模擬它的方法。詳細內容可以參見論文。
Gemma Boleda:分布式表征中的通用信息以及特定情境信息
演講中討論了分布式表征中的通用信息以及特定情境下的信息之間的互動,並且介紹了這個研究方向上的兩個最新成果。其中第一個是關於短期含義漂移(見下圖),是指可以通過測量內容可變性的方式來識別語義變化;第二個是關於基於 LSTM 的語言模型中的詞彙模糊性,作者們提出的模型可以探測出 LSTM 模型中隱含的詞彙表征以及單詞的上下文信息。
Reut Tsarfaty:空元素計劃
Reut Tsarfaty 介紹了 Paul Grice 提出的邏輯和對話問題,比如「不要讓產出結果增加不需要的信息量」,也就是說任何多餘的信息都可以被正當地丟掉;然後討論了文本句子之間的空元素,比如去掉動詞(如下圖),然後列出所有可能的空元素形式。
Lucia Specia:人機對話需要發展出更全面的方法
演講討論了針對模態文本的機器翻譯,指出當輸入文本短、有噪聲、意義含混不清等等時,多模態學習是一種有效的應對方式。詳細可以參見 NAACL 2019 論文以及 ACL 2019 論文。
André Martins:超越 Sparsemax - 自適應稀疏 Transformer
André Martins 介紹了傳統 softmax 的一個替代方案 sparsemax,它可以把 softmax 得到的正態機率分布映射到單純形(simplex)中的機率分布,也就意味著它可以輸出稀疏的機率。從 sparsemax 推導的損失函數是凸性的,且處處可微。這個方向上的更多成果包括正則化 argmax 上的泛化,以及 α-entmax 變換。
Angela Fan:在推理時剪枝 Transformer 模型
Angela Fan 指出了神經網絡模型的主要幾個挑戰,包括過度參數化、冗餘、過擬合,以及大模型難以投入實際使用,然後討論了知識蒸餾、剪枝之類的減少模型資源消耗的方法。演講中她重點闡述了針對 Transformer 模型的一種剪枝方法 LayerDrop,在訓練的時候隨機丟棄 Transformer 中的層,網絡表現只有很小的損失。網絡壓縮的類似成果還有 DistilBERT、TinyBERT 等等。
Rico Sennrich:自然語言處理中的 Transformer 模型都學到了什麼?模型分析帶來一些新的見解
這個演講討論了關於 Transformer 模型的一些開放問題,比如,如何識別模型中重要的注意力頭,以及如何在沒有表現損失的前提下對不重要的注意力頭剪枝。目前認為位置性的、語法性的、以及能感知不常見的詞彙的頭可能是比較重要的(如下圖)。除此之外,下圖還顯示出其實可以把大多數頭都剪枝掉,愛來的表現下降很小。Rico Sennrich 介紹的另一篇論文是關於 Transformer 模型中的表征的演化的,回顧了針對不同的學習目標訓練 Transformer 模型時它學到的表征有何不同(比如用於機器翻譯、語言模型以及掩蔽語言模型)
圓桌討論
在圓桌討論環節,幾位來自歐洲的頂尖 NLP 研究人員分享了他們在學術界和工業界的經驗心得,也討論了在學術界和工業界工作的區別。現場聽了圓桌討論的 Wei Zhao 最喜歡來自 Bonnie Webber 的這句話:學生是可以問非常基礎的問題的。在工業界就很少有人會回過頭去看以前的東西了。
希望歐洲的 NLP 研究人員們能藉此機會增加互相了解、展開更多合作,帶來更多好的成果,也期待明年明年的 EurNLP 更大更好。
via https://medium.com/@andyweizhao1/eurnlp2019-highlights-3060c17e828,AI 科技評論編譯
文章來源: https://twgreatdaily.com/zh-cn/kNGs8G0BMH2_cNUgrGd6.html