XLNet如何結合GPT和BERT的優點

2019-09-12     人工智慧遇見磐創

XLNet是一種新的預訓練模型,在20項任務中表現優於BERT,且有大幅度的提升。

這是什麼原因呢?

在不了解機器學習的情況下,不難估計我們捕獲的上下文越多,預測就越準確。 因此,模型能夠深入而有效地捕獲大多數上下文的能力是其提升的原因。

讓我們玩一個遊戲,在下面的上下文中,[Guess1]和[Guess2]分別是什麼呢?

[『Natural』, 『language』, 『processing』, 『is』, 『a』, 『marriage』, 『of』, [Guess1], [Guess2], 『and』, 『linguistics』]

我就直接揭示答案了。

答案: [『Natural』, 『language』, 『processing』, 『is』, 『a』, 『marriage』, 『of』, 『machine』,『learning』, 『and』, 『linguistics』]

我們使用符號Pr(Guess | Context) 代表一個基於上下文詞的猜測機率。

GPT中,我們從左到右閱讀,因此我們不知道 『machine』, 『learning』各自後面的下文:

Pr (『machine』 | [『Natural』, 『language』, 『processing』, 『is』, 『a』, 『marriage』, 『of』])

Pr (『learning』 | [『Natural』, 『language』, 『processing』, 『is』, 『a』, 『marriage』, 『of』, 『machine』])

知道『machine』實際上可以幫助你猜『learning』,因為『learning』經常跟隨『machine』,而『machine learning』是現在很火熱的術語。

BERT中,與GPT對比,我們能知道預測單詞前向和後向上下文,但我們在猜測 『machine』和 『learning』時都是基於相同的上下文:

Pr (『machine』 | [『Natural』, 『language』, 『processing』, 『is』, 『a』, 『marriage』, 『of』, 『and』, 『linguistics』])

Pr (『learning』 | [『Natural』, 『language』, 『processing』, 『is』, 『a』, 『marriage』, 『of』, 『and』, 『linguistics』])

擁有『linguistics』實際上可以幫助你猜測『machine』 『learning』 ,因為你知道自然語言處理是機器學習和語言學的完美結合。即使你不知道,有了『linguistics』的存在,你至少知道預測單詞不是 『linguistics』。

你可以看到BERT的明顯缺點是,它無法知道 『machine』 和 『learning』之間的聯繫。

那麼我們如何結合GPT和BERT的優點呢?

XLNet 排列!排列的作用是即使我們只從左到右閱讀,排列也允許我們捕捉前向和後向上下文(從左到右閱讀,從右到左閱讀)。

其中一種排列可以讓我們捕捉到前向和後向上下文:

[『Natural』, 『language』, 『processing』, 『is』, 『a』, 『marriage』, 『of』, 『and』, 『linguistics』, 『machine』, 『learning』]

Pr (『machine』 | [『Natural』, 『language』, 『processing』, 『is』, 『a』, 『marriage』, 『of』, 『and』, 『linguistics』])

Pr(『learning』 | [『Natural』, 『language』, 『processing』, 『is』, 『a』, 『marriage』, 『of』, 『and』, 『linguistics』, 『machine』])

這一次,你擁有完整的上下文,在猜測 『machine』之後,你可以立即猜測『learning』。 你可以清楚地看到XLNet結合了GPT和BERT的優點。

當然,如果你想了解更多細節,請閱讀XLNet論文[1]


  1. https://arxiv.org/pdf/1906.08237.pdf
文章來源: https://twgreatdaily.com/zh-cn/5KqWLG0BJleJMoPM5_ua.html