目錄
利用不確定性設計損失權重進行場景幾何和語義多任務學習
理解遞歸神經網絡中的泛化
分段線性激活實質上塑造了神經網絡的損失平面
MT-BioNER:使用BERT結構的多任務學習模型進行醫藥領域的命名實體識別
一種面向語義表征的層次型多任務學習方法
利用不確定性設計損失權重進行場景幾何和語義多任務學習
論文名稱:Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
作者:Alex Kendall / Yarin Gal / Roberto Cipolla
發表時間:2018/4/24
論文連結:https://arxiv.org/abs/1705.07115
推薦原因
多任務學習對越來越多的任務起到了訓練速度和表現分數等方面的促進作用,但是計算損失時,如何確定各個子任務的損失權重是一大難點,因為最佳的損失權重附近往往伴隨著比單個模型表現更差的損失權重值。作者從任務同質不確定性(homoscedastic uncertainty)的角度,利用簡化的回歸、分類模型,分析了多回歸任務、回歸+分類任務等多任務模型的目標函數,提出了利用數據集的分布信息來設計並訓練權重的方法。
按照上述方法設計的多任務模型打敗了所有單任務模型並達到了SOTA,同時,作者證明了此種損失設計對於參數的初始化信息有較強的魯棒性。
作者從貝葉斯理論的角度,提出了一種替代人工調參來確定多任務損失函數權重的方法,不僅有效,且可解釋性強。這種方法未必是萬能的,但是無疑是提出了一個可行的搜索子空間,為多任務學習設計損失函數提出了一種新的思路。
理解遞歸神經網絡中的泛化
論文名稱:Understanding Generalization in Recurrent Neural Networks
作者:Zhuozhuo Tu / Fengxiang He / Dacheng Tao
發表時間:2019/9/26
論文連結:https://openreview.net/forum?id=rkgg6xBYDH
推薦原因
此論文已被 ICLR 2020收錄,來自陶大程組
在本文中,我們闡述了分析遞歸神經網絡泛化性能的理論。我們首先基於矩陣1-範數和 Fisher-Rao 範數提出了一種新的遞歸神經網絡的泛化邊界。Fisher-Rao 範數的定義依賴於有關 RNN 梯度的結構引理。這種新的泛化邊界假設輸入數據的協方差矩陣是正定的,這可能限制了它在實際中的應用。為了解決這一問題,我們提出在輸入數據中加入隨機噪聲,並證明了經隨機噪聲(隨機噪聲是輸入數據的擴展)訓練的一個泛化邊界。與現有結果相比,我們的泛化邊界對網絡的規模沒有明顯的依賴關係。我們還發現,遞歸神經網絡(RNN)的 Fisher-Rao 範數可以解釋為梯度的度量,納入這種梯度度量不僅可以收緊邊界,而且可以在泛化和可訓練性之間建立關係。在此基礎上,我們從理論上分析了特徵協方差對神經網絡泛化的影響,並討論了訓練中的權值衰減和梯度裁剪可以如何改善神經網絡泛化。
分段線性激活實質上塑造了神經網絡的損失平面
論文名稱:Piecewise linear activations substantially shape the loss surfaces of neural networks
作者:Fengxiang He / Bohan Wang / Dacheng Tao
發表時間:2019/9/26
論文連結:https://openreview.net/forum?id=B1x6BTEKwr
推薦原因
此論文已被 ICLR 2020收錄,來自陶大程組優必選雪梨大學人工智慧中心。
理解神經網絡的損失平面對於理解深度學習至關重要。本文介紹了分段線性激活函數是如何從根本上塑造神經網絡損失平面的。我們首先證明了許多神經網絡的損失平面具有無限的偽局部極小值,這些偽局部極小值被定義為經驗風險比全局極小值更高的局部極小值。我們的結果表明,分段線性激活網絡與已被人們充分研究的線性神經網絡有著本質區別。實踐中,這一結果適用於大多數損失函數中任何具有任意深度和任意分段線性激活函數(不包括線性函數)的神經網絡。本質上,基本假設與大多數實際情況是一致的,即輸出層比任何隱藏層都窄。此外,利用不可微分的邊界將具有分段線性激活的神經網絡的損失平面分割成多個光滑的多線性單元。所構造的偽局部極小值以底谷的形式集中在一個單元中:它們通過一條經驗風險不變的連續路徑相互連接。對於單隱層網絡,我們進一步證明了一個單元中的所有局部最小值均構成一個等價類別;它們集中在一個底谷里;它們都是單元中的全局極小值。
MT-BioNER: 使用BERT結構的多任務學習模型進行醫藥領域的命名實體識別
論文名稱:MT-BioNER: Multi-task Learning for Biomedical Named Entity Recognition using Deep Bidirectional Transformers
作者:Muhammad Raza Khan /Morteza Ziyadi /Mohamed AbdelHady
發表時間:2020/1/24
論文連結:https://arxiv.org/abs/2001.08904
推薦原因
為了輔助訓練聊天小助手,微軟提出了一種基於BERT預訓練模型的多任務模型在多個不同醫學領域數據集上進行命名實體識別(NER),具體做法是以BERT預訓練模型為共享層(share layer),為每個領域的數據集設置一個子任務(task specific layer),計算損失時各個子任務的權重均為1。同時,為了在不損失精度的前提下,有效地提高模型的時間和空間方面的效率,作者實驗了多種訓練技巧,最終選擇了一起訓練BERT層和共享層,並且一次隨機選取一個領域數據集的mini-batch進行訓練。
公平起見,作者選擇了公開數據集進行實驗,模型的時空效率、分數表現均達到SOTA
這是一個很經典的多任務學習方法,用作者自己的話來說,這個模型的特點是簡單高效,用softmax取代CRF,隨機選取mini-batch,以及作者討論了但是並沒有加入實驗的對預訓練的BERT進行再次預訓練的方法,都解開了不少我的疑問。同時,因為思路簡單明了,作者對於實驗的講解十分詳細,可學習性很強。
本文沒有公開代碼,但是提供了所用到的數據集。
一種面向語義表征的層次型多任務學習方法
論文名稱:A Hierarchical Multi-task Approach for Learning Embeddings from Semantic Tasks
作者:Victor Sanh / Thomas Wolf / Sebastian Ruder
發表時間:2018/11/26
論文連結:https://arxiv.org/pdf/1811.06031.pdf
推薦原因
本文研究如何利用多任務學習方法(multi-task learning)來獲取更為豐富的語義表徵信息,具體的方法是設計一種層次結構的網絡模型,用於抽取句子的上下文特徵,並依據此特徵,依次設計了NER(Named Entity Recognition), EMD(Entity Mention Detection), RE(Relation Extraction), CR(Coreference Resolution)等任務。其中每一個任務都有自己的BiLSTM結構進行訓練,並且上層任務同時接收上下文特徵、下層語義特徵作為輸入。訓練過程中,一輪更新結束後,會隨機選擇一個任務以及相應的數據集進行下一輪訓練。此外,作者嘗試了採用不同的子任務與層次結構進行訓練來觀察任務組合之間的信息交互。
從效果上來看,無論是速度還是F1分數上,此多任務模型比單個任務模型(包括引入了額外語法信息的模型)均要出色。同時,作者提取各層的信息,在多個探測任務(probing tasks)上詳細地分析了多任務學習方法所學到的語義表徵信息。
很多研究成果都證明了,一個設計良好的多任務學習模型是很有效的,同時也是難以設計的。本文從多任務學習所學到的語義表征出發,研究如何消除災難性遺忘(catastropic forgetting),有效從其他任務中學習語義知識等問題,效果很好。
文章來源: https://twgreatdaily.com/zh-sg/_gEOp3EBiuFnsJQVvfOS.html