本文介紹一篇南大NLP在AAAI 2021上被錄取的一篇論文: 《Automated cross-prompt scoring of essay traits》。
1
研究動機
自動作文評分(英文叫Automated Essay Scoring,簡稱AES)旨在使用計算機來根據論文的整體質量或與某些屬性(trait)相關的質量來評分,例如,文章組織、切題程度、敘述性等。
現有的大多數研究都是針對同一主題的已評分作文數據集上進行模型的訓練和預測(如圖1左上角和左下角),其中訓練和測試數據都是從同一分布中(DA)提取的。
圖1: AES任務概覽
然而真實場景中的AES系統通常無法獲得足夠多的目標主題文章,因此有必要研究如何預測訓練數據中不存在的主題的文章分數。因此,最近的一些研究探索了跨主題的AES,即從不同的主題中提取訓練數據和測試數據(圖1的右上角)。
跨主題的AES研究目前只關注根據論文的整體性來評分,而我們認為一個有效的AES系統還應該能夠提供屬性級別的反饋,因此,我們引入了一個新的AES任務,即自動跨主題作文屬性評分,該任務要求模型在僅有非目標主題作文進行訓練的前提下,能夠準確預測屬於目標主題的文章的總分以及多個屬性的分數(如圖1右下角),其中訓練和測試數據來自不同的分布,輸出是不同屬性的分數。
這項新的任務表現出兩個主要的挑戰:
第一, 模型需要有足夠的泛化能力,才能在新的主題中表現良好;
第二, 模型需要能夠從不同的方面表示文章質量,以便有效地對各種文章屬性進行評分。
在探討自動跨主題作文屬性評分的任務中,我們解決了兩個問題:
第一, 屬於不同題目的文章有不同的trait集,因此許多trait有部分覆蓋率(論文中叫partial-trait coverage),這會導致某些trait的訓練數據不足。例如,如果只有兩個題目的文章在敘述性trait上有分數(所有其他題目的文章沒有),那一個被訓練為這一trait打分的模型只能在這兩個題目的文章上進行訓練;
第二, 不同trait之間存在高度的相關性。例如,一個在word choice的trait上分數高的文章也可以預期在conventions上獲得很好的分數。
為了解決partial-trait coverage的問題,我們引入了一種多任務的方法,即Cross-prompt Trait Scorer(CTS),該方法同時預測總體分數和所有trait的分數。這使得模型能夠對訓練集中的所有數據進行訓練,以學習更魯棒的表示。
為了解決trait間關係的問題,我們設計了一個trait-attention機制,利用最相關的trait信息來預測每個trait的分數。
2
貢獻
1. 我們提出了一個新的任務,即自動主題作文屬性評分,它將AES解決方案中的兩個重要任務(跨主題作文評分和作文屬性評分)結合起來,從而更貼近真實場景。
2. 我們設計了一個新的方法叫Cross-prompt Trait Scorer(CTS),通過使用多任務方法來解決由於partial-trait coverage而導致訓練數據受限的問題。
3. 我們設計了一個trait-attention機制來利用不同trait之間存在的關係。
3
解決方案
我們的方法建立在PAES(Ridley et al. 2020,如圖2左)之上,PAES是一個跨主題AES的SOTA方法。該方法利用詞性嵌入來學習廣義句法表示。
首先,每個句子都有一個卷積層,通過attention pooling來實現句子級的表示。然後,這些表示被輸入一個recurrent層,該層使用LSTM,然後是第二個attention pooling層來學習完整的文章表示。
然後將一組非主題特定的特徵與文章表示連結起來,最後通過一個線性層和sigmoid激活來預測單個分數。
這類方法通過獨立地對每個trait進行訓練,也可以直接應用於本文提出的新任務中,然而這樣做有兩個問題:
1、如果訓練數據中只有少量的文章擁有目標trait的標籤,那麼就沒有足夠的數據來訓練一個魯棒的模型。
2、這些trait並不是相互獨立的,而是相互關聯的。這種簡單的方法不利用任何隱含的trait間的關係。
為了解決上述問題,我們設計了一個名為Cross prompt Trait Scorer(CTS)的模型,如圖2右所示。
針對partial-trait coverage導致數據不足的問題,我們採用了基於多任務的體系結構,這使得模型能夠對數據集中的所有樣本進行訓練,以便學習更魯棒的編碼器表示。為了解決trait間的關係問題,我們在模型的低級別實現共享層,然後在高級別實現私有層。共享層旨在學習對所有任務都有用的通用表示。
在多任務結構中,高級別的層能夠表示更複雜的信息,因此私有層被用來學習更多的任務特定表示。
此外,為了更明確地共享trait之間的信息,我們設計了一個trait-attention機制,允許每個trait集中於其他trait的相關信息。
圖2: PAES(左,Ridley et al. 2020)及本文給出的CTS模型(右)
4
實驗
本文的實驗是在Automated Student Assessment Prize(ASAP)數據集上進行的。ASAP數據集包含八個不同的文章集,每個集中的文章都有不同的題目。每一篇文章都會根據文章的整體質量獲得一個人性化的評分,而文章集7和8的文章則會根據評分標準對一些相關trait進行額外評分。
由於只有文章集7和8具有trait分數,因此我們還使用了ASAP++數據集,該數據集是在原始ASAP數據集的基礎上構建的。ASAP++的作者為文章集1-6提供了各種相關trait的分數,以補充ASAP的原始總分。
表1: ASAP和ASAP++數據集中的屬性定義
每個文章集的trait如表1所示,文章集1-6的trait分數來自補充的ASAP++數據集,文章集7和8的trait分數來自ASAP數據集。所有的總分都來自原始的ASAP數據集。
在實驗中,一個文章集的作文被用作測試數據,其餘幾組的文章被用作訓練數據。對於每個文章集重複此操作。在每種情況下,開發集包含與訓練集相同集的文章。
我們將CTS與四個baseline模型進行了比較,Hi att和AES aug都是在Prompt-specific Holistic scoring和Prompt-specific Trait Scoring都取得了很好性能的模型,PAES是我們的base模型,是一個面向Cross-prompt Holistic Scoring的SOTA方法,最後,CTS no att是我們的CTS模型的一個消融版本,沒有添加trait-attention機制。
表2: 各文章集的平均QWK值
表3: 各屬性的平均QWK值
在表2中,我們顯示了每個文章集的所有trait的平均分數,在表3中,我們顯示了每個trait的所有文章集的平均分數。從這兩個表來看,我們可以看出兩個面向Prompt-specific的方法(Hi att 和AES aug)都表現不好。這是因為這些模型不是為Cross-prompt的設置設計的,因此它們過擬合很嚴重。
當我們比較三種面向Cross-prompt模型時,我們可以看到,除了文章集5外,CTS在所有文章集上的性能都超過了PAES和CTS no att,而且在大多數文章集中,多任務方法CTS no att的性能都優於單任務方法PAES。
這是因為PAES無法利用完整的訓練數據集,它只能在目標trait有標籤的樣本上進行訓練。CTS no att和CTS的多任務結構能夠利用訓練集中的所有樣本進行訓練。
表4: 文章集2中每個屬性的平均QWK值
我們還通過實驗來驗證可用的訓練數據的數量對模型性能的影響。表4中顯示了PAES、CTS no att和CTS的文章集2的每個屬性的性能。在這個表格中,有Word Choice和Sentence Fluency只出現在另外兩個文章集中。
因此,在對這兩個屬性進行評分時,基於單任務方法僅能對訓練集9499篇論文中的2129篇進行訓練,與其他兩個模型相比,這兩個trait的表現顯著降低。
圖3: 預測文章集3的總分時所有屬性的注意力權重
為了深入了解trait-attention機制的運作方式,我們將注意力權重可視化。在圖3中,當預測文章集3的總分時,由於這是一個整體評分,應該從多個不同方面考慮文章的質量,因此我們可以看到注意力在所有屬性中的分布相對均勻,基本沒有權重明顯高於其他屬性的屬性。
圖4: 預測文章集3的Language分數時的屬性注意權重
圖4則顯示了在預測文章集3的Language分數時的trait注意權重。這是一個比總分更具體、更集中的屬性,此時與語言密切相關的屬性Word Choice的權重要明顯高於其他屬性權重。
5
總結
為了滿足真實場景中AES系統的需求,我們引入了一個新的AES任務,即Automated Cross-prompt Scoring of Essay Traits。
此外,我們還提出了一個新的方法(Cross-prompt Trait Scorer),它利用共享和私有層的多任務結構以及trait-attention機制來解決在跨主題設置中某些屬性數據有限以及屬性間關係利用的兩個問題。