作者 | David Weinberger
編譯 | CDA數據分析師
原文 | How Machine Learning Pushes Us to Define Fairness
偏見是機器學習的原始罪過。它嵌入在機器學習的本質中:系統從數據中學習,因此 很容易發現數據所代表的人為偏見。例如,接受過美國現有職業培訓的ML招聘系統很可能會「學到」,女性與執行長之間的聯繫不佳。
徹底清除數據以使系統不會發現任何隱藏的有害關聯可能非常困難。即使經過最大程度的照顧,機器學習系統也可能發現偏向模式是如此微妙和複雜,以至於無法被人類原本最好的關注所掩蓋。因此,計算機科學家,政策制定者以及任何與社會正義有關的人們目前都在關注如何避免AI產生偏見。
然而,機器學習的本質也可能使我們以新的,富有成效的方式思考公平。我們與機器學習(ML)的相遇開始為我們提供概念,詞彙和工具,使我們能夠比以前更直接,更準確地解決偏見和公平問題。
我們長期以來將公平視為道德原始。如果您問某人一個不公平的例子,那麼他們談論兩個收到不同數量Cookie的孩子的可能性就非常高。這顯然是不公平的,除非他們之間存在一些相關的差異來證明這種差異是合理的:其中一個孩子年齡更大,或者更大,或者同意做額外的家務來換取餅乾等。在這種簡單的表述中,公平被定義為除非有一些相關的區別證明不平等待遇是合理的,否則人的平等待遇。
但是什麼構成「相關區別」?事實是,我們比不公平更容易達成共識。我們可能都同意種族歧視是錯誤的,但是六十年後,我們仍在爭論《平權行動》是否是一種公平的補救辦法。
例如,我們都同意,在20世紀70年代,它是不公平的女性音樂家組成少的五大交響樂團的5%樂團。在這種情況下,我們可能會同意,實際的樂團樂隊研究所似乎更為公平:通過將申請人的試鏡放在幕後以掩蓋性別的陰影下,五個頂級交響樂團中的女性比例在1997年上升到25%,現在上升到30%。
但是,是否存在性別盲目的過程足以使結果真正公平?也許文化偏見會給男性音樂家帶來非生物學上的優勢-例如,如果更多的男人被頂級音樂學院錄取,他們可能會接受更好的音樂教育。幾個世紀以來,音樂表現的水準一直圍繞著典型的男性特徵或喜好形成,例如手掌大小或表現的侵略性。是否有30%足以讓我們宣布樂團現在在對待女性方面是公平的?也許,音樂家的性別比例應該達到51%,才能反映出整個國家的總體性別統計數據?還是應該反映出樂隊中男女申請人的百分比?還是比部分糾正導致人們在樂團中人數過多的歷史偏見更高的水平?(更不用說,整個討論都假設性別是二元的,不是的。)
機器學習可以幫助我們進行此類討論,因為它要求我們以高度精確的方式指導我們,從道德上講我們會接受哪種結果。它為我們提供了以更清晰,更富有成效的方式進行這些討論的工具(通常是爭論)。
這些工具包括源自機器學習最常見任務的詞彙:決定將給定輸入放入哪個bin。如果輸入是義大利麵條醬工廠的傳送帶上的番茄的實時圖像,則該垃圾箱可能會標記為「可接受」或「丟棄」。每個輸入都將分配給具有附加置信度的垃圾箱:72例如,確定此番茄可食用。
如果對西紅柿進行分類是系統的基本任務,那麼您將要關心有多少西紅柿被錯誤分類了:ML將哪些西紅柿放入「丟棄」堆中,將多少壞西紅柿放入「可接受的垃圾箱」中-錯誤的批准和錯過的機會。而且,由於對垃圾箱的分配始終基於置信度,因此ML為其設計人員提供了滑塊,以調整結果以反映公平的不同定義。
例如,如果是您的番茄工廠,那麼您可能最在乎新ML番茄分選應用程式的整體準確性。但是,監管者可能會更擔心壞番茄進入批准箱中,而不是將好番茄扔進丟棄箱中。或者,如果您是一個骯髒的番茄工廠老闆,那麼扔掉好番茄比在醬汁中加入一些爛番茄可能會更不高興。
ML要求我們完全清楚自己想要什麼。如果您擔心壞番茄將其放入醬汁中,則必須決定您(以及您的客戶以及律師)可以與多少壞番茄一起生活。您可以通過調整將西紅柿放入批准箱中所需的置信度來控制此百分比:您是要將閾值置信度設置為98%還是將其降低到60%?將滑塊向左或向右移動時,您將把更多好的西紅柿放到「丟棄」箱中,或者將更多的壞西紅柿放入「批准的」箱中。
用ML的話來說,放在「丟棄」箱中的被忽略的好西紅柿是假陰性,而放入「批准」箱中的壞西紅柿是假陽性。
當我們談論將貸款申請分類到「批准」或「拒絕」箱中的過程時,這些術語會很有用。(出於此假設的目的,我們將忽略任何有關貸款批准程序的法規。)假設有30%的申請人是女性,但在「批准的垃圾箱」中只有10%的申請是女性。但是,除了查看女性獲得批准的百分比或拖欠貸款的男性和女性比例之外,也許我們應該查看「拒絕女性」分類中誤報的百分比是否高於女性的百分比。拒絕人員區中的誤報。
ML領域的研究人員還為我們在這裡以及其他地方討論的公平類型提供了精確的定義,並使用了「人口統計平價」,「預測匯率平價」和「反事實公平」等名稱。與專家討論這些問題可以使這些討論更容易進行,並且對論點的各個方面都有更全面的理解。他們沒有告訴我們在任何情況下都採用哪種類型的公平性,但是它們使我們更容易就該問題提出富有成效的論據。
在更高的抽象水平上也是如此,因為我們可以決定什麼才是ML系統的成功。例如,我們可以訓練ML貸款應用程式分類程序來優化自身,從而為我們的業務帶來最高的利潤。或獲得最高收入。或為最大數量的客戶。我們甚至可以出於經濟公正的考慮而決定,我們要向較貧窮的人提供一些貸款,而不是總是向周圍的最富有的人提供貸款。我們的機器學習系統應使我們能夠判斷風險,調整我們希望在「批准的」收款箱中的低收入人群的百分比,或為我們提供的貸款設置最低盈利水平。
ML還清楚地表明,我們無法始終(甚至通常)針對我們可能擁有的每個價值來優化結果。例如,在這種假設下,貸款公司可能會發現,將更多的低收入申請人納入「批准的垃圾箱」會影響該垃圾箱中女性的比例。可以想像您不能同時為兩者優化系統。在這種情況下,您可能希望找到另一個願意修改的值,以便為低收入人群和婦女創造更公平的結果。也許,如果您將公司的風險增加到可接受的程度,則可以實現兩個目標。機器學習系統為我們提供了進行此類調整並預測其結果的槓桿。
當我們看到更高層次的抽象時-從使用滑塊調整容器中的混合,到關於優化可能不一致的值的問題-ML告訴我們公平不是簡單而是複雜的,它不是絕對的而是問題權衡。
ML無奈的字面性要求我們做出的決定自然可以導致討論聽起來像對道德的高尚論點或對技術的專業術語爭執不休,而更像是具有不同價值觀的人之間的政治論點:優質番茄醬或廉價醬能最大化我們的利潤?增加樂隊中女音樂家的比例還是維持當前樂器的配置?向低收入人群發放貸款,但也許會降低女性比例?
如果機器學習以新的精度提出了這些問題,為我們提供了討論這些問題的詞彙,並讓我們嘗試進行調整以查看針對所關注的值優化系統的最佳方法,那麼這是向前邁出了一步。並且,如果機器學習使我們根據我們關心的價值觀來討論針對不公平情況的補救措施,並準備做出現實的妥協,那麼對於許多道德論證來說,那也不是一個壞模型。
進入CDA官方小程序,解鎖更多新鮮資訊和優質內容,還有免費試聽課程,千萬不能錯過喲!