直播預告 | 明晚七點,相約阿里巴巴ACL 2021分享會(一)

2021-06-08   AI科技評論

原標題:直播預告 | 明晚七點,相約阿里巴巴ACL 2021分享會(一)

ACL由國際計算語學協會主辦,是自然語言處理(NLP)與計算語言學領域最高級別的學術會議,被中國計算機學會(CCF)列為A類國際學術會議,涵蓋語言分析、信息抽取、機器翻譯與自動問答等各個領域。本屆ACL共收到3350篇論文投稿,其中主會論文錄用率為21.3%。

本次我們邀請到阿里巴巴達摩院的小夥伴分享他們在ACL 2021的收穫。

直播時間

6月9日 19:00

活動流程

19:00-19:20

分享嘉賓:徐海洋

分享主題:E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning

19:20-19:40

分享嘉賓:程麗穎

分享主題:Argument Pair Extraction via Attention-guided Multi-Layer Multi-Cross Encoding

19:40-20:00

分享嘉賓:何瑞丹

分享主題:On the Effectiveness of Adapter-based Tuning for Pretrained Language Model Adaptation

20:00-20:30

觀眾互動提問環節

直播連結二維碼

分享概要

分享嘉賓1:徐海洋 達摩院機器智能技術實驗室

分享主題:ACL 2021 | E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning

論文摘要

基於海量圖文對的多模態預訓練在下游的跨模態任務中已經取得巨大的成功。現有的多模態預訓練的方法主要基於兩階段訓練,首先利用預訓練的目標檢測器抽取基於區域的視覺特徵,然後拼接視覺表示和文本向量作為Transformer的輸入進行訓練。但是這類方法面臨著使用領域性的視覺特徵來做通用跨模態理解,以及計算效率低的問題。在這篇論文中,我們提出一個新的多模態預訓練範式( E2E-VLP)。我們通過一個統一的Transformer框架同時學習視覺表示和文圖的語義對齊。我們通過融入目標檢測和圖片標題生成任務到預訓練過程中來提升視覺學習。這個新的端到端的訓練範式能夠增強像素和文本層面的特徵融合,並且encoder-decoder的框架可以靈活的微調下游的多模態理解和生成任務。E2E-VLP在主要的多模態任務中都取得差不多和兩階段模型匹配的效果。

技術影響:

多模態預訓練模型E2E-VLP是第一篇支持端到端多模態理解和生成的模型,是第一篇通過encoder-decoder的框架把視覺任務學習融入到預訓練學習中,E2E-VLP在主要的多模態任務中都取得和兩階段模型匹配的效果。

分享嘉賓2:程麗穎 達摩院-機器智能技術實驗室

分享主題:ACL 2021 | Argument Pair Extraction via Attention-guided Multi-Layer Multi-Cross Encoding

論文摘要:

針對從兩個文本同時進行論辯對挖掘的任務,這篇工作提出了一個端到端的解決方案,即一個注意力機制引導的多層多交編碼器模型。此模型用兩個序列編碼器單獨處理兩個文本,並利用彼此的信息通過注意力機制進行更新每個文本的表示,同時利用表格填充的方法設計了一個表格編碼器學習兩個文本之間的關係。另外,此模型還提出了一個輔助注意力機制損失函數。該模型在基準數據集上取得了目前為止最好的結果,具有較廣泛的技術價值,可被應用於多種其他論辯對挖掘的任務以及在兩個文本間做信息抽取和關係匹配的任務,如辯論機器人項目、電商評論、智能司法項目等。

技術影響:

智能辯論是人工智慧領域的集大成者,是通用人工智慧的重要體現形式。本研究解決文檔對(two sequences of sentences)內辯論點挖掘的問題,針對兩個序列(sequences)交互信息的抽取,首次提出了端到端模型。具體地,提出的多層多交編碼方式(Multi-Layer Multi-Cross Encoding)可以對兩個序列的交互作用,通過表格編碼器(table encoder)來進行自然的建模,同時表格編碼器和兩個序列編碼器(sequence encoders)進行協同訓練,從而更好地抽取兩個序列內存在交互關係的信息片段。

分享嘉賓3:何瑞丹 達摩院-機器智能技術實驗室

分享主題:ACL 2021 | On the Effectiveness of Adapter-based Tuning for Pretrained Language Model Adaptation

論文摘要:

近來微調(fine-tuning)已經成為了一種主流的預訓練模型任務適應的方法。微調會複製預訓練模型的權重,然後在下游任務上對所有權重進行更新。這使得對於每一個新任務,微調都會產生一個新的模型, 這對於很多應用尤其是multi-task場景非常不友好。前人提出了Adapter-based tuning 的方法旨在解決這個問題, 在做任務適應時,只有adapter的權重會被更新, 原預訓練模型的權重被凍結。然而,前人的工作主要是從parameter efficiency角度出發的,沒有進一步挖掘adapter-based tuning的應用場景。本方案旨在探究adapter-based tuning是否能提升預訓練模型任務適應的性能,這是一個對學界和工業界都非常重要的問題。 首先,我們驗證了adapter-based tuning能更好正則化模型在目標任務上的學習,減輕災難性遺忘(catastrophic forgetting)。接著,我們在多種場景的基準任務上對比了adapter-based tuning和fine-tuning, 包括低資源,高資源, 單語言,多語言等, 我們發現 1)adapter-based tuning在低資源或跨語言場景下能顯著超過微調;2)其訓練過程更穩定(more robust to overfitting) 且對學習率更不敏感。

技術影響:

隨著預訓練模型(如BERT、GPT)的廣泛應用,模型微調(fine-tuning)已經成為一種應用範式,然而已有工作並未深入研究該策略的適用範圍和局限性。本文首次系統地對比了fine-tuning和Adapter-based tuning方式的優劣,發現 1)adapter-based tuning在低資源或跨語言場景下能顯著超過微調;2)其訓練過程更穩定(more robust to overfitting) 且對學習率更不敏感。以上結論均是首次被發現,預期對預訓練模型的應用方式產生較大影響