ICLR 2020 | ReClor: 一個需要邏輯推理的閱讀理解數據集

2020-05-12     AI科技評論

原標題:ICLR 2020 | ReClor: 一個需要邏輯推理的閱讀理解數據集

語言預訓練模型在現有流行的閱讀理解數據集上取得了驚人的效果,因此,現在是時候引入更複雜的數據集來推動該領域朝著更複雜推理的方向發展了。

新加坡國立大學馮佳時團隊最近在ICLR 2020 上發表的論文《ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning》,正是在這方面的工作。

文 | Weihao Yu

編 | 叢 末

這篇論文引入了一個來源於標準化考試的、需要邏輯推理的閱讀理解數據集 (ReClor)。

如之前研究,人工標註的數據集通常包含偏差,模型往往能利用這些偏差來得到很好的效果。為了全面評估模型在ReClor數據集上的邏輯推理能力,作者將測試集中帶有偏差的數據歸為EASY集,其餘歸為HARD集。

實驗結果表明當前預訓練模型具有很強的捕獲偏差的能力,它們在EASY集上表現優秀。然而,預訓練模型在HARD集上卻舉步維艱,性能接近或稍高於隨機猜測,這表明需要更多的工作來增強模型的邏輯推理能力。

論文地址:https://arxiv.org/abs/2002.04326

項目主頁:http://whyu.me/reclor/

機器閱讀理解(MRC)是自然語言處理中的一項基本任務,該任務需要模型根據文本和特定問題預測答案。隨著NLP中無監督表示學習的成功,基於語言預訓練的模型例如GPT、BERT、XLNet和RoBERTa在大多數流行的閱讀理解數據集上達到了近乎飽和的性能。現在是時候以更困難的閱讀理解任務來挑戰當前先進模型,推動該領域朝著對文本進行更全面分析和推理的方向邁進。

在自然語言理解中,根據美國法學院錄取委員會的定義,邏輯推理是對普通文本中的觀點進行檢查、分析和批判驗證的能力。該能力是人類智能的重要組成部分,在談判、辯論和寫作等方面必不可少。然而現有的閱讀理解數據集中沒有或只有少量需要邏輯推理的數據,根據Sugawara & Aizawa (2016) 的統計,MCTest數據集中占比為0%,SQuAD數據集中占比為1.2%。

在NLP中,與邏輯推理相關的一個任務是自然語言推理 (Natural Language Inference),該任務要求模型來判斷兩個句子之間的邏輯關係,即繼承、中立和矛盾。但此任務僅考慮三種簡單的邏輯關係類型,而且僅需句子級別上的推理。

為了推動模型邏輯推理能力從簡單的邏輯關係分類發展到多類型複雜邏輯推理,從句子級別推理髮展到段落級別推理,有必要引入針對邏輯推理的閱讀理解數據集。

表1 問題譯文:

背景:某司法管轄地區規定在能見度良好的情況下,汽車前燈可以選擇使用。在該地區中,始終使用前燈的駕駛員相比僅在能見度較差時才使用前燈的駕駛員,發生碰撞事故的可能性小。然而,公路安全部門的記錄表明,強制始終使用前燈並不能減少碰撞的總數。

問題:下列哪一項如果為真,最能解決上述信息中的明顯差異?

選項:

A.在能見度較好的情況下,前燈可以選擇使用的司法管轄地區中,四分之一的駕駛員在白天好天氣時使用前燈。

B.在法律不強制使用前燈的情況中,只有非常小心的駕駛員使用前燈。

C.規定任何時候都必須強制使用前燈的司法管轄地區白天能見度通常很差。

D.強制始終使用前燈的法律並不難執行。

答案:B

表1給出了一個邏輯推理問題的典型示例。類似於多項選擇閱讀理解數據集的格式,它包含一段上下文,一道問題和四個選項,其中只有一個為正確答案。

受之前RACE等來源於標準化考試的閱讀理解數據集的啟發,我們通過從美國研究生管理入學考試、美國法學院入學考試等標準化考試中收集了6138道需要邏輯推理的問題,這些問題構成了一個需要邏輯推理的閱讀理解數據集(ReClor)。

表 2 展示了ReClor數據集與其他類似的閱讀理解數據集的對比。

與RACE數據集相比,ReCor的上下文長度要短得多。在RACE數據集中,其上下文中包含許多回答問題時無需用到的冗餘句子。但在ReClor數據集中,上下文段落中的每個句子都很重要,這使此數據集專注於評估模型的邏輯推理能力,而不是從較長的上下文中搜索提取相關信息的能力。

作者分析並手動標註測試集上問題的類型,並將其歸為17類,每個問題類型的占比和描述如表3所示。各題型的例子可以參見論文中的圖2和附錄。

人類注釋的數據集通常包含偏差,經常被神經網絡模型用作捷徑以實現較高的測試精度,有必要分析這些偏差來幫助評價模型。在多選項閱讀理解數據集中,對於一道題目,不同選項共享相同的上下文和問題,因此我們專注於正確選項和錯誤選項之間單詞傾向和句子長度的差異。表5和圖三展示了該結果。

例如表5中的motive,該單詞共出現23次,雖然四個選項只有一個正確選項(25%),但該單詞高達65.2%出現在正確選項中。

為了充分評價模型的邏輯推理能力,我們通過剔除上下文和問題,只將選項送入模型並利用不同隨機種子訓練模型。我們將測試集中能被模型僅通過選項便較為穩定預測正確的題目歸為EASY集,其餘歸為HARD集。

隨後作者測試了當前先進模型在ReClor數據集上的表現,圖1和表7展示了實驗結果。

圖1直觀表明,當前預訓練模型在EASY集上表現優秀,表明該類模型具有優秀的捕捉數據集偏差的能力。然而,該類模型在HARD集上卻舉步維艱,這表明使模型具有真正邏輯推理能力仍任重道遠。

表7還展示了先在RACE數據集上微調後在ReClor微調的實驗結果,模型性能均有大幅提升。該結果表明,遷移學習或許是增強邏輯推理能力的一種潛在有效的方案。

文章來源: https://twgreatdaily.com/1T3WDHIBiuFnsJQV2XuO.html