當BERT玩「彩票」時，如何找到全贏的策略？

作者 | 蔣寶尚

編輯 | 青暮

BERT是一個「體量」巨大的模型，事實表明，當刪除BERT的一些組件之後，BERT仍然能工作。那麼，如何理解這一現象？

最近，有一篇題為「當BERT玩彩票時，全贏的策略」的論文從彩票假說考慮了這一現象。經過實驗，作者發現，對於微調的BERT：

1.有可能找到性能與完整模型性能相當的子網絡；

2.從模型的其餘部分採樣得到的「類似尺寸」子網絡，其性能可能更差。

另外，這篇論文還表明：通過結構化剪枝，即使是「最差」的子網絡也能保持高度的可訓練性，這表明大多數預先訓練的BERT權重是潛在有用的。

具體情況如何，作者在科技博客The Gradient對研究思路和研究結果進行了梳理，下面AI科技評論對其進行了不改變原意的編譯：

BERT亮相已經兩年了， Transformers仍然在榜單上占據主導地位，並且越來越多的相關研究還在湧現。

2020年2月份Rogers等人寫的第一篇調查BERT技術的論文考量了四十餘篇文獻，六月份這個數字達到了一百多篇。到了8月份，最終定稿時候，已經有了一百五十多篇引文。

但即使調查了這麼多論文，仍然無法弄清BERT如何工作。有些研究認為，BERT有很多關於語言的信息，其解釋性或許能夠從這找到端倪。還有大多數的論文更多是關注不同類型的因素，例如掩碼語言模型、詞性標記、句法分析等等。

最近的研究為一種研究方向提供了線索：

1.彩票假設（lottery ticket hypothesis）：密集、隨機初始化的前饋網絡包含子網絡（中獎彩票），當獨立訓練時，這些子網絡能夠在相似的疊代次數內達到與原始網絡相當的測試準確率。

2.大多數的BERT自注意頭（self-attention heads）可以基於模型梯度進行修剪。

3.對於經過機器翻譯訓練的Base-Transformer模型，其修剪過後頭往往具有句法功能。

考慮所有這些情況，那麼，如果BERT的參數太多，我們是否可以通過將其縮減成最簡形式，使其更具有可解釋性？因此，接下來，拋開模型壓縮，我們將「修剪」作為模型分析的一種技術。

經過研究發現，根據模型大小對BERT權重進行非結構化修剪之後，其效果和彩票假說得到預測一致，並且產生了穩定的子網絡。但是，根據BERT 頭和MLPs的重要性分數修剪BERT頭和MLPs，並不能得到「好」子網絡（微調初始化，或者類似任務中的「"好 "子網絡）。這些子網也不優先能編碼潛在可解釋模式的自注意頭。

對於大多數任務，可以對「好」的子網進行再訓練，從而達到接近完整模型的性能，但隨機抽樣的子網絡也可以做到這一點。顯然，這對BRRT來說是一個好消息，但對可解釋性來說卻是個壞消息。

隨後，研究人員使用兩種修剪方法：非結構化剪枝和結構化剪枝，進行驗證彩票假說是否成立。

剪枝BERT

經典的彩票假設大多是用非結構化修剪方法進行檢驗的，特別是m-pruning，即不管權重在模型中的位置如何，最低權重的都會被修剪。修剪標準是：子網絡的性能高於完整模型的90%即可。

我們根據重要性分數對BERT架構的整個組件進行結構化修剪(s-pruning)，具體而言，通過掩碼進行「移除」最不重要的自我注意頭和MLPs。另外，在每次疊代中，修剪10%的BERT頭和 1 MLP 。修剪的標準，仍然是只要達到完整模型的90%即可。

對於上述兩種方法，掩碼都是根據特定數據集的全模型性能確定的。所以，感興趣的應該是：找到使在9個GLUE任務上表現良好的子網絡。由於我們感興趣的是BERT的「推理策略」，而不是泛化，因此這種方法可以看到該特定數據的最好或者最差子網絡。

在隨機初始化過程中，「良好」子網的穩定性如何？

最近的研究表明，任務特定層的隨機初始化不同，BERT的性能存在非常大的差異，以至於不同的初始化會導致顯著不同的泛化性能。

通過在每個GLUE任務上運行實驗，對BERT的任務特定層進行5次隨機初始化，來估計「好」子網絡的穩定性。

下面是使用兩種修剪方法找到好子網絡的示例：

如上圖所示，m修剪的子網絡相當穩定(STD大多在0.01左右)。s-修剪只有幾個倖存者存活。

出現這種情況的原因是，大多數BERT頭的得分非常低。下面是疊代一次時候，CoLA的重要性得分分布的例子：其實大多數頭不重要，都可以用差不多的效果進行修剪。

各個任務的「好」子網的穩定性如何？

由於m-剪枝的關鍵因素是預先訓練BERT權重的大小，因此m-剪枝的子網絡在隨機種子和任務之間都是非常相似的。但s-pruning並非如此，因為不同任務的「好」子網非常不同：

就「好的」子網而言，相關任務並不意味著有共同之處。下圖顯示了所有GLUE任務對子網絡中「共享的」自我注意頭的平均數。

例如，QQP和MRPC在任務制定方面比QQP和MNLI更接近，但「好」的子網在這兩種情況下都有52-55個頭。

論證BERT的彩票假說

考慮三個實驗設置：

「好」子網絡：通過s-剪枝或m-剪枝從整個模型中選擇元素；
「隨機」子網絡：從完整模型中隨機抽樣的元素，以大小為標準，匹配「良好」子網；
「壞」子網：修剪後沒有「存活」下來的元素，整合從剩餘元素中採樣的一些元素。從而找到好子網絡的「尺寸」。

在所有三種設置中，測量修剪後的子網的性能，以及在掩碼模型其餘部分的情況下重新調整相同子網的性能。

再一次強調，彩票假說的是：當重新微調時，「好」的子網應該能夠達到完整模型達到的性能。

我們確實發現m-pruning的情況就是這樣：修剪和重新微調的「良好」子網在8/9 GLue任務中達到完整的模型性能。注意：WNLI除外，因為在WNLI中，模型通常無法學習。雖然「隨機」和「壞」子網絡在重新調整時表現不錯，但總體效果，「壞」子網絡始終比「隨機」子網絡差。

然而，對於s—修剪的子網來說，卻呈出了不一樣的趨勢。對於大多數任務，經過s修剪的子網絡並不完全達到完整模型的性能。準確而言，差異在2個點以內。然而，「隨機」的子網絡幾乎可以和「好的」子網絡一樣被重新訓練，這與大多數人的重要性得分低的觀察結果是一致的。另一方面，因為是在GLUE數據集上進行評估，所以「壞的」子網可能選擇了最差的BERT元素。此外，在可訓練性方面，它們與biLSTM+GloVe GLUE 基準相當。

因此，我們從中得到的啟示是：s—修剪並沒有丟失什麼。雖然沒有達到完整模型的性能，但對於大多數任務而言，完整模型的隨機子集所表現出的性能幾乎與根據重要性分數所選擇的子網絡一樣好。

這會出現兩種情況：要麼大多數BERT組件是冗餘的(在這種情況下，大多數隨機子集仍然包含非常多信息)，要麼不同組件的信息內容確實存在差異（重要性分數對它們不夠敏感）。

這些「好」的子網在語言上有多大的信息量？

在具體實驗中，特別考慮了「超級倖存者」。我們所考慮的是，如果BERT子網的成功歸功於它們所編碼的語言知識，那麼「超級倖存者」應該包含更多的語言知識。畢竟，這些倖存者是在5個隨機種子上進行s-修剪後倖存下來的BERT組件。

我們把重點放在自我注意的頭上，因為這一直是眾多BERTology研究的焦點，有非常多的研究表明，它們編碼的是特定語言知識，在一定程度上，這意味著可解釋性。我們沒有檢測BERT頭的潛在功能，而是選擇直接分析它們的注意模式。注意力模式有5種類型，如下圖所示：

由於「異質」是唯一在編碼語言上，能夠可解釋關係的模式，因此自我注意頭與這類模式的比率為可解釋模式提供了一個上限。

隨後我們在400張自我注意圖的人工標註集上訓練了CNN分類器。訓練的時候，考慮了權重歸一化注意圖，這應該會減少對特殊標記的關注，為此，我們對600多個注意圖樣本進行了注釋。

我們還考慮了權重歸一化注意圖(Kobayashi et al.。2020)，這應該會減少對特殊標記的關注，為此，我們對600多個關注圖樣本進行了注釋。然後，我們對每個GLUE任務中的100個樣本進行編碼，為每個BERT頭生成注意力圖，並使用訓練好的分類器估計每種類型的模式數量。結果是：在帶注釋的數據上，對於原始注意圖，分類器的f1為0.81，對於權重歸一圖（weight-normed maps），分類器的f1為0.74。

根據結果，我們觀察：對於原始注意圖，「超級倖存者」頭有更多的塊狀模式（block）和垂直+對角模式（vertical+diagonal），異質模式的數量並沒有增加。

在權重歸一條件下，對角模式的比例下降。但對於大多數任務，超級倖存者仍然有30%-40%的對角模式。

在這種情況下，兩個檢測任務（MRPC和QQP）的垂直注意模式數量明顯增加，這背後意味著對SEP、CLS和標點符號的注意。

總體而言，「超級倖存者」似乎並不主要由潛在的有意義的自我注意模式組成。這一結果與之前做「重活」（heavy lifting）的自我注意模式的研究形成了鮮明對比。但是，這兩項研究探索了不同的架構，它們依賴於不同的方法修剪和解釋自我注意頭。

結論

以上研究證明了彩票假設：「好」的子網可以再訓練以達到完整的模型性能。結構化修剪得出的結論是：使用這種修剪方法得到的大部分子網，都會產生類似於好的、隨機的和壞的網絡的性能，而且它們都不能完全達到原始網絡的性能。因此，可以說，有了結構化的修剪，BERT就不會「輸」技巧，雖然也沒有完全「贏」。

實驗還表明，BERT的高性能似乎並不是來自於特定的語言知識，這些語言知識被獨特地編碼在BERT特定組件（自注意力頭和MLPs）的預訓練權重中。否則，"好 "子網絡會在隨機種子中保持穩定。它們在GLUE任務中也不穩定，同類型任務的 "好 "子網絡不一定有更多的共同點。最後，即使是存活最穩定的自注意力頭，也並不是以潛在可解釋的自注意力模式為主。

因此，對於BERT為何能達到如此高的性能，我們的疑問仍然多於答案。但LSTM的結果表明，語言任務的表現可以受益於非語言的預訓練。

參考連結：

https://thegradient.pub/when-bert-plays-the-lottery-all-tickets-are-winning/

[贈書福利]

AI科技評論本次聯合【博文視點】為大家帶來15本「《labuladong 的算法小抄》」正版新書。

在1月1日頭條文章《我多篇頂會論文在手，面試AI算法崗時竟然還要刷算法題？ | 元旦送書福利》留言區暢所欲言，談一談你刷算法的故事，或你對2020的總結或者是對2021年的規劃和心愿，甚至可以是新的一年對AI科技評論的建議和期待，有哪些喜歡看的報道，還希望看到什麼樣的報道？

AI 科技評論將會在留言區選出 15名讀者，每人送出《labuladong 的算法小抄》一本。

活動規則：

2. 留言內容會有篩選，例如「選我上去」等內容將不會被篩選，亦不會中獎。

3. 本活動時間為2021年1月1日 - 2020年1月7日（23:00），活動推送內僅允許中獎一次。

當BERT玩「彩票」時，如何找到全贏的策略？

直播預告 | 明晚七點，相約阿里巴巴ACL 2021分享會（一）

ICCV 2021 DeeperAction挑戰賽

真正實現類人智能！美國工程院院士Jeff Hawkins：創造機器智能之路

Call for Papers丨KDD 2021 預訓練研討會，唐傑教授領銜

618如何避免剁手"X.O"洋酒？這個打假AI說：不怕，我1秒能識別20個！

亞馬遜首席科學家李沐：五年總結

強迫投稿者引用自己論文，IEEE高級會員被終身「禁賽」，網友：這事在國內很常見......

這5個數學猜想最早在30年前提出，如今AI證明它們都錯了

華人首次！清華姚班助理教授張煥晨獲得SIGMOD Jim Gray博士論文獎！

PapersWithCode和arXiv再次合作！可一鍵顯示論文使用的數據集

香港、澳洲三所高校 AI 博士生招生！還有研究助理和實習生等你加入......

ICML剛剛放榜！接收率僅21%為近五年最低，感謝審稿人不「殺」之恩

李飛飛高徒Andrej Karpathy用AI撰寫內心獨白：我的「進化」之路

直播預告 | 視聽感知學習魯棒性初探

香港、美國、新加坡三所高校新一輪 AI 博士生招生！快來一起發頂會論文

2021年Facebook博士生獎研金名單公布！一半獲獎者是華人博士生

摩根大通公布2021年AI研究博士生獎學金名單！獲獎華人博士生占1/3

預告 | 商湯學術公開課-AI畫質專題課程來襲！

網吹錢偉長寫論文「不必參考任何文獻」，但這的確不符合學術規範

重磅！Science &上海交大發布最新「全世界最前沿的125個科學問題」！

圖靈獎得主Jeffrey Ullman ：我是如何入坑計算機科學的？

學NLP的人跑去CV頂會投稿，中了頂會一作，還是一位本科生？

德撲AI大神、AAAI學術新星 Noam Brown：不完美信息多智能體場景下的AI研究

「倒計時1天」香港AI頂會報名開啟！楊強、譚鐵牛等6位院士18位專家，聯袂報告