作者 | 高天宇
編輯 | Camel
本文對清華大學孫茂松、劉知遠團隊完成、被 AAAI-20 錄用的論文《Neural Snowball for Few-Shot Relation Learning》進行解讀。
論文:https://arxiv.org/abs/1908.11007
開原始碼:https://github.com/thunlp/Neural-Snowball
1.
關係抽取(Relation Extraction)是自然語言處理當中的一個重要研究課題,其探究如何從文本中抽取結構化的關係事實。例如,從句子「比爾蓋茨是微軟的創始人」中,我們可以抽取出(比爾蓋茨,創始人,微軟)這樣一個關係三元組,並用於知識圖譜補全等下游任務中。
與關係抽取相關的工作有很多,但他們大多針對預定義的關係類型,即給定一個人為定義好的關係集合,在抽取時僅考慮集合內的關係類型。然而,我們面臨著開放式的關係增長,隨著新領域、新知識的出現,關係類型也在不斷增多。因此,我們需要能夠應對關係增長的關係抽取模型。
2.
目前的研究當中,主要有以下幾種關係抽取的場景,他們所針對的關係類型和利用的數據都有所不同:
有監督的關係抽取(Supervised Relation Extraction):其針對預定義的關係集合,使用大規模的監督數據。
半監督的關係抽取(Semi-Supervised Relation Extraction):其針對的也是預定義的關係集合,希望使用相對較少的監督數據,在大量無監督數據的幫助下,能夠取得與有監督關係抽取類似的效果。
少次學習關係抽取(Few-Shot Relation Extraction):其針對的新的(沒見過的)關係類型,通過在已有關係類型上的大規模數據預先訓練,再快速遷移到新關係類型的少量數據上,達到少次學習的目的。
自啟動關係抽取(Bootstrapping Relation Extraction):其面向的也是開放的關係場景,對於新的關係類型,僅給定少量的啟動樣本,以疊代的方式從大規模的數據中挖掘更多的信息,從而得到更加強大的關係抽取模型。
從上面的分析中可以看出,這些方法涉及到了三種類型的數據:在已有關係類型上的大規模監督數據,對於新關係的少量標註數據,以及大規模的無監督數據。我們希望能夠充分的利用這三種數據:
如上圖所示,Neural Snowball通過在已有關係上的大規模數據上訓練距離度量(下文中會有詳細闡述),遷移到新的關係類型上,利用新關係的少量數據作為啟動種子,從大規模的無監督數據中挖掘有用信息,挖掘越多的有用信息,我們就能得到越好的關係抽取模型。
3. Neural Snowball 的整個流程如下:
輸入:一個新的關係類型,以及少量的標註數據(啟動種子)
目標:訓練一個該關係類型的二分類器。用二分類器是因為這樣更具可擴展性,當關係類型增加的時候,可以將多個二分類器放在一起使用。
訓練:以啟動種子開始,疊代式的從無監督數據中挖掘有用信息。
如圖所示,每一輪疊代主要分為兩個階段:
(1) 利用遠監督獲取待選句子;
(2) 利用新的關係分類器獲取待選句子。
遠監督(Distant Supervision)是指,如果已有數據告訴我們,實體h、t之間有關係r,我們就找到所有包含h、t的句子,並假設他們真的表達了關係r。第一步獲取了新的訓練數據之後,Neural Snowball會訓練新的關係分類器,這個新的分類器會從無監督數據中挖掘它認為屬於關係r的數據,這些新數據可以幫助訓練更好的分類器。
4.
然而,這兩步疊代都會帶來噪聲數據,這時就需要Relational Siamese Network(RSN)來進行數據過濾。
RSN結構如上圖,其輸入兩個句子,輸出這兩個句子是否表達的是同一種關係。我們在已有關係的大規模數據上預先訓練RSN,並將它用在Neural Snowball中,對所有從無監督數據中選出來的候選數據,用RSN將它們與啟動種子進行比較,僅留下置信度較高的樣本。
上表是關於RSN的性能測試。P@N表示預測top-N的精度。Train和test分別表示在訓練中見過的關係類型上測試,和在新關係上進行測試的結果。可以看出,即使是在RSN從沒有見過的關係類型上,其表現也是十分不錯的。
6.
相比傳統的Bootstrapping方法,我們的優勢是什麼?首先,我們引入了神經網絡,相比使用pattern或者statistical方法能夠有更好的generalizability。同時,我們利用在已有關係上預先訓練的RSN,能夠在疊代過程中獲得更好的精度。
在與一些baseline模型的對比中,我們可以看出Neural Snowball具有很強的性能優勢。同時,我們也對Neural Snowball疊代獲得的樣本質量進行了一些分析
圖中橫坐標代表疊代輪數,藍色的柱狀圖代表挖掘到的新的樣本的數量。綠色和紅色分別代表利用新挖掘出的數據訓練得到的分類器的precision和recall。其中,虛線表示一種理想情況:在知道無監督數據中哪些是正確的樣本的情況下,隨機選取和Neural Snowball挖掘出來的相同數量的樣本。
從圖中可以看出,得益於RSN的使用,Neural Snowball挖掘出的樣本保持了較好的precision,但因為在挖掘過程中過於陷入「舒適區」,recall距離理想情況還有較大的差距。這也是我們未來想要進一步探索的方向,即如何能夠挖掘出更多樣化的樣本。
AAAI 2020 論文集:
AAAI 2020 | 這 10 篇論文值得你了解(附PPT下載)
AAAI 2020 論文解讀系列:
01. 時間可以是二維的嗎?基於二維時間圖的視頻內容片段檢測
09. 藉助BabelNet構建多語言義原知識庫
10. 溝壑易填:端到端語音翻譯中預訓練和微調的銜接方法
11. 中科院自動化所:通過識別和翻譯交互打造更優的語音翻譯模型
文章來源: https://twgreatdaily.com/zh-tw/7E8Vbm8BMH2_cNUgjcqV.html