ACL 2020 | 詞嵌入性別偏見難以避免?「雙硬去偏」新方法來了!

2020-07-08     AI科技評論

原標題:ACL 2020 | 詞嵌入性別偏見難以避免?「雙硬去偏」新方法來了!

本文介紹的是 ACL 2020 論文《Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation》,論文作者來自維吉尼亞大學、salesforce。

編譯 | 龔 倩

編輯 | 叢 末

Paper: https://arxiv.org/abs/2005.00965

Github: https://github.com/uvavision/Double-Hard-Debias

1

研究背景

源自人為生成的語料庫的詞嵌入,具有很強的性別偏見,而且這種性別偏見會被下游模型進一步放大。我們發現語料庫的規律性如詞頻等,會對現有的事後比較去偏算法(post-hoc debiasing algorithms)的性能產生負面影響,於是我們提出在推斷和去除性別子空間之前,根據語料庫的規律性對詞嵌入進行凈化處理。

1、詞嵌入中的性別偏見

詞嵌入是指用有意義的數字向量表示詞彙表中的單詞,它們能夠捕捉單詞的語義和句法意義以及與其他單詞的關係。儘管詞嵌入向量在自然語言處理任務中得到了廣泛的應用,但它還是被批判:從訓練語料庫中繼承了無意識的性別偏見。

正如論文《Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings》中所討論的那樣,當一個詞的語義是中性而學到的詞嵌入卻更偏向特定的性別時,就暴露出了性別偏見的問題。例如,在下圖中,x坐標表示的是對嵌入的單詞「he」(他)和「she」(她)之間的差異,而y坐標表示捕獲性別中立的嵌入過程中學到的傾向,中性的單詞在x軸之上,而特定性別的單詞在x軸之下。儘管「brilliant」(聰明)和「genius」(天才)在定義上是中性的,但它們的嵌入更接近「he」(他)。同樣,「homemaker」(操持家務者)和「sewing(」縫紉)與「she」(她)更接近。

2、為什麼性別偏見是一個嚴重的問題?

詞嵌入中的性別偏見確實是一個很嚴重的問題。想像一下,如果人們訓練了一個基於具有偏見的詞嵌入的簡歷篩選模型,那麼這個模型就會針對程式設計師等崗位自動地過濾掉女性應聘者,也會針對理髮師等職位篩除掉男性應聘者。同樣,一個把醫生全都當作男性以及把護士全都當作女性的問題應答模型,當被用來理解醫療報告時,它提供的答案也會是錯誤的。

3、早期的「硬去偏」方法

之前的方法是通過後處理方式減少詞嵌入中與性別相關的部分從而減少性別偏見。具體來說,它需要一系列與性別相關的詞對,並計算這些詞對的差分向量的第一主成分作為嵌入空間中的性別方向。然後將有偏詞嵌入映射到與推測的性別方向正交的子空間中,以消除性別偏見。雖然此方法確實能夠在單詞類比任務中減輕性別偏見,但另一項工作《Lipstick on a pig: Debiasing methods cover up systematic gender biases in word embeddings but do not remove them》認為這種方法並不是特別有效,因為去偏後嵌入的幾何圖形中仍然存在性別偏見。

4、詞頻會對性別方向產生負面影響

在這篇論文中,我們假設現有的「硬去偏」方法很難確定詞嵌入正確的性別方向。《Frage: Frequency-agnostic word representation》和《All-but-the-top: Simple and effective postprocessing for word representations》兩項工作表明,詞頻會顯著影響詞嵌入的幾何結構。例如,常用詞和罕見詞會聚集在嵌入空間的不同子區域,不過,這些聚集在同一個子區域的詞在語義上並不相似。這會對性別方向的定義過程產生負面影響,從而降低「硬去偏」方法消除性別偏見的能力。通過經驗可以證明,某些詞的使用頻率變化,會導致其對應的差分向量與其他詞的差分向量之間的相似性發生顯著變化,如下圖所示。

2

「雙硬去偏」方法

這項工作中,我們通過消除詞頻對性別方向的影響來提高「硬去偏」方法的性能。由於詞頻會改變性別方向,我們提出運用「雙硬去偏」法來消除詞頻對性別方向的負面影響。此方法的關鍵在於:使用硬去偏之前,將單詞嵌入映射到一個中間的子空間中。回顧一下,我們前面討論的硬去偏方法就是通過將嵌入空間轉化為無特定性別的空間來降低性別偏見。

同樣地,在雙硬去偏方法中,我們首先將所有的單詞嵌入轉換成一個與使用頻率無關的子空間,在這樣的子空間中,我們能夠計算出一個更加準確的性別方向。更確切地說,我們試圖找到一個能夠分散性別方向計算的編碼頻率信息的維度。然後我們從詞嵌入中沿著這個特定的維度映射出組件,從而獲得修正的嵌入向量,再對其應用硬去偏方法。

為了確定這個維度,我們利用具有高偏見的單詞的聚類作為指標,疊代測試詞嵌入的主成分。具體步驟如下:

  1. 計算所有單詞嵌入向量的主成分作為候選的頻率維度。

  2. 選擇一系列高性別偏見的男性和女性詞彙(如程式設計師,家務操持者,遊戲,跳舞等)。

  3. 分別對每個候選維度 重複步驟4-6。

  4. 將詞嵌入映射到一個與 正交的中間空間,從而得到修正的詞嵌入。

  5. 對修正的詞嵌入應用"硬去偏"方法。

  6. 高性別偏見的單詞經過步驟5得到去偏嵌入,再聚類此去偏嵌入,然後計該聚類的精度。

如果步驟6中的聚類算法仍然將具有性別偏見的單詞按性別分成兩組,則說明去除 並不能改善去偏效果。因此,我們可以篩選出導致有偏詞聚類精度下降最顯著的那個 ,然後將其刪除。

3

「雙硬去偏」方法效果如何?

我們在幾個偏見消除基準上評估「雙硬去偏」法,其中包括一個重要的下游任務——共指消解(coreference resolution)。

我們使用WinoBias數據集來量化共指系統中的性別偏見。WinoBias由兩種類型的句子組成,每種類型的句子都可以劃分為一個對性別有刻板印象的子集和一個反性別刻板印象的子集。性別,是這兩個子集之間唯一的區別。

舉例來說,第一類句子中包含了一種對性別有刻板印象的句子: 「The physician hired the secretary because he was overwhelmed with clients」(醫生僱傭秘書是因為他的病人太多了)。而反性別刻板印象的句子是「The physician hired the secretary because she was overwhelmed with clients」(醫生僱傭秘書是因為她的病人太多了)。

性別刻板印象子集和反性別刻板印象子集的表現差異,反映了共指系統對於男性群體和女性群體有哪些不同的表現,所以我們將這種差異度作為性別偏見分數。原始的GloVe嵌入具有顯著的性別差異,我們可以從其性別偏見分數中看到兩種類型的句子之間的差距:一個達到29分,而另一個只有15分。

與「硬去偏」方法和其他先進的去偏方法相比,我們的方法在兩種類型的共指句子中都實現了最小差異。同時,「雙硬去偏」法也保留了詞嵌入中有用的語義信息。在最初的測試集上,我們觀察到F1分數隻下降了0.1%。

我們還對500個帶有高性別偏見的女性/男性詞嵌入進行 tSNE 映射。如下圖所示,原始GloVe嵌入被清晰地映射到不同的區域,顯示出強烈的性別偏見。與其他方法相比,雙硬GloVe最大程度地混合了男性和女性嵌入,去偏後能捕獲到更少的性別信息。

4

結論

我們發現,詞頻統計上的一點小變化就會對詞嵌入的性別去偏方法產生負面影響。在以往的性別去偏工作中,詞頻統計一直被忽視,而我們提出的「雙硬去偏」法能夠減輕詞頻特徵對去偏算法的負面影響。

我們相信,引入無性別偏見且實用的詞嵌入是十分重要的,同時也希望通過我們的這項研究工作,能夠激勵這一方向出現更多研究工作。

via https://blog.einstein.ai/double-hard-debias-tailoring-word-embeddings-for-gender-bias-mitigation/

文章來源: https://twgreatdaily.com/zh-cn/aWxeLXMBd4Bm1__YVrvy.html