Longformer：超越RoBERTa，為長文檔而生的預訓練模型

作者 | ChrisCao、小軼

編輯 | 叢末

傳統Tranformer-based模型在處理長文本時有著天然的劣勢。因為傳統模型採用的是「全連接」型的attention機制，即每一個token都要與其他所有token進行交互。其attention複雜度高達。此前的解決辦法是將長文切分為若干個較短的text span，然後逐個處理。這就導致不同的text span之間無法進行交互，因而必然存在大量information loss。當然，我們也可以通過添加一些其他機制來加強這種text span之間的交互。但這種新增機制實現起來通常比較複雜，而且往往是task-specific的，通用性不強。

原文連結： https://arxiv.org/pdf/2004.05150.pdf

Github： https://github.com/allenai/longformer

本文提出的一種可高效處理長文本的升級版Transformer——Longformer，改進了Transformer的傳統attention機制：對於每一個token， 只對固定窗口大小的附近token計算local attention，並結合具體任務，計算 少量的global attention。該方法的優點包括：

複雜度低，將attention機制的複雜度降至
通用性強，可用於各類文檔級任務
部署容易，作者在cuda內核上直接實現了Longformer的attention pattern，並提供了開原始碼。

Longformer在兩個字符級語言建模任務上都取得了SOTA的效果。並且，作者用Longformer的attention方法繼續預訓練RoBERTa。訓練得到的語言模型在多個長文檔任務上進行fine-tune後，性能全面超越Roberta。該 預訓練模型也已開源，大家可以很方便地直接應用於自己的任務。

模型

作者共提出了三種新的attention pattern，來降低傳統self-attention的複雜度，分別是滑窗機制、膨脹滑窗機制、融合全局信息的滑窗機制。下圖展示了傳統attention與這三種attention pattern的示意圖。接下來將為大家分別講解。

1. 滑窗機制（Sliding window）：對於每一個token，只對其附近的w個token計算attention計算複雜度與文本序列長度成線性關係，為。作者認為，根據應用任務的不同可以對Transformer每一層施以不同的窗口大小，對模型表示能力可能有潛在幫助。

讀到這裡的，大家可能和我一樣，誤認為這個窗口應該比較小，估計在16~64這個量級。但看到實驗部分會發現，作者在具體實現的時候，設置的窗口大小為512，和Bert的Input限制完全一樣。所以，大家不要存有「Longformer比Bert還要更輕量」的錯覺。

2. 膨脹滑窗機制（Dilated sliding window）：在對每一個進行token編碼時，普通滑窗機制只能考慮到長度為的上下文。作者進一步提出膨脹滑窗機制，在不增加計算負荷的前提下，拓寬模型「視場」。其做法借鑑了空洞卷積的思想[1]。如下圖所示，在滑動窗口中，被attend到的兩個相鄰token之間會存在大小為d的間隙。當transformer的層數為l時，則視場範圍可達到。實驗表明，由於考慮了更加全面的上下文信息，膨脹滑窗機制比普通的滑窗機制表現更佳。

3. 融合全局信息的滑窗機制（Global+sliding window）：我們知道Bert一類的語言模型在應用於具體任務時，實現方式略有不同。比如，對於文本分類任務，我們會在文本序列前添加[CLS]這一特殊token；而對於QA類任務，則會將問題與文本進行拼接後輸入。在Longformer中，作者也希望能夠根據具體任務的不同，在local attention的基礎上添加少量的global attention。比如，在分類任務上就會在[CLS]處添加一個global attention，而在QA任務上會對question中的所有token添加global attention。如下圖所示，對於添加了global attention的token，我們對其編碼時要對整個序列做attention。並且，編碼其他所有token時，也都要attend到它。

實驗

1、自定義CUDA內核

由於現有的深度學習庫中並沒有能直接實現膨脹滑窗機制的接口，為此作者直接自定義了CUDA內核操作，用於實現Longformer的attention pattern[2]。如下圖所示，Longformer的內存消耗與文本長度成線性關係（紅線）。用自定義CUDA來實現Longformer，相比於用Naive Pytorch來實現（藍線），運行速度加快了六倍。

2、Longformer在字符級別任務上的表現

作者在text8和enwik8兩個字符級任務上對Longformer進行實驗。實驗中，模型每一層採用了不同的窗口大小：底層使用較小的滑窗，以建模局部信息；在高層使用較大的滑窗，以擴大感受野。訓練時，理想狀況下當然是希望使用GPU所能承受的最大的window size和sequence len。但為了加快訓練速度，作者採用的是一種階段式的訓練方式：在學習更長的上下文之前，先學好局部的上下文。在第一階段，先設置較短的序列長度和窗口大小。在後續階段，window size和sequence length增加一倍，學習率減半實驗結果如下圖所示，Longformer在這兩個數據集上皆達到了SOTA效果（註：測試指標為BPC，bits-per-character；BPC越小，性能越優）。

作者通過實驗，對滑窗機制的設置進行了進一步的討論。如下表所示：

表中第一組實驗（前三行）討論的是：如果transformer的不同層採用不同窗口大小，是否可以提高性能？實驗結果表明，由底層至高層遞增窗口大小，可提升性能；遞減則反而性能降低。
第二組實驗（後兩行）是對膨脹滑窗機制的消融實驗，證明了增加間隙後的滑窗機制，性能可以有小幅度提升

3、Longformer用於預訓練1）MLM Pretraining

作者採用Longformer的方法在以下四個文檔級語料上進行預訓練，從而得到適於文檔級NLP任務的語言模型。作者並沒有完全從頭預訓練一個隨機初始化的模型，而是以RoBERTa為基礎，採用MLM(masked language modeling)的方法繼續預訓練。預訓練時，每一層都採用固定的大小為512的滑動窗口，暫不添加global attention。為支持長文本，論文作者把position embedding擴展到了4096個。

預訓練結束後，在多個文檔級任務上再進一步對預訓練模型做fine-tuning。fine-tuning時會根據任務增加global attention：共設置兩套映射矩陣，一套用於局部自注意力，另一套用於全局注意力。實驗表明，Longformer全面超越了RoBERTa的表現。

2）消融實驗

為了證明Longformer更優異的性能並不是因為對RoBERTa額外的預訓練帶來的，作者做了一組消融實驗。採用了與RoBERTa完全相同的序列長度和attention機制，在繼續預訓練後並沒有在文檔級任務上取得更優的性能。

參考文獻：

[2] TVM: 關於如何自定義CUDA內核：這裡作者使用了TVM (tensor virtual machine)(tvm.apache.org)，2018年由華盛頓大學的SAMPL組貢獻的開源項目。TVM為不同的深度學習框架和硬體平台實現了統一的編譯棧，從而實現將不同框架的深度學習模型到硬體平台的快速部署。

招聘

點

擊"閱讀原文"，直達「KDD交流小組」了解更多會議信息。

Longformer：超越RoBERTa，為長文檔而生的預訓練模型

文章來源: https://twgreatdaily.com/zh-cn/E4Cdh3MBd4Bm1__YyltN.html

直播預告 | 明晚七點，相約阿里巴巴ACL 2021分享會（一）

ICCV 2021 DeeperAction挑戰賽

真正實現類人智能！美國工程院院士Jeff Hawkins：創造機器智能之路

Call for Papers丨KDD 2021 預訓練研討會，唐傑教授領銜

618如何避免剁手"X.O"洋酒？這個打假AI說：不怕，我1秒能識別20個！

亞馬遜首席科學家李沐：五年總結

強迫投稿者引用自己論文，IEEE高級會員被終身「禁賽」，網友：這事在國內很常見......

這5個數學猜想最早在30年前提出，如今AI證明它們都錯了

華人首次！清華姚班助理教授張煥晨獲得SIGMOD Jim Gray博士論文獎！

PapersWithCode和arXiv再次合作！可一鍵顯示論文使用的數據集

香港、澳洲三所高校 AI 博士生招生！還有研究助理和實習生等你加入......

ICML剛剛放榜！接收率僅21%為近五年最低，感謝審稿人不「殺」之恩

李飛飛高徒Andrej Karpathy用AI撰寫內心獨白：我的「進化」之路

直播預告 | 視聽感知學習魯棒性初探

香港、美國、新加坡三所高校新一輪 AI 博士生招生！快來一起發頂會論文

2021年Facebook博士生獎研金名單公布！一半獲獎者是華人博士生

摩根大通公布2021年AI研究博士生獎學金名單！獲獎華人博士生占1/3

預告 | 商湯學術公開課-AI畫質專題課程來襲！

網吹錢偉長寫論文「不必參考任何文獻」，但這的確不符合學術規範

重磅！Science &上海交大發布最新「全世界最前沿的125個科學問題」！

圖靈獎得主Jeffrey Ullman ：我是如何入坑計算機科學的？

學NLP的人跑去CV頂會投稿，中了頂會一作，還是一位本科生？

德撲AI大神、AAAI學術新星 Noam Brown：不完美信息多智能體場景下的AI研究

「倒計時1天」香港AI頂會報名開啟！楊強、譚鐵牛等6位院士18位專家，聯袂報告