外刊 | 《哈佛商業評論》:敏感數據有助減少人工智慧歧視

2023-08-08     社會科學報

原標題:外刊 | 《哈佛商業評論》:敏感數據有助減少人工智慧歧視

外刊 | 《哈佛商業評論》:敏感數據有助減少人工智慧歧視

由於擔心人工智慧歧視,人們往往會拒絕人工智慧決策者訪問性別、種族、年齡等敏感數據。但研究顯示,這實際上會增加歧視性結果產生的風險,而在算法中加入敏感數據反而可以解決這一問題。近日,加拿大西部大學助理教授史蒂芬妮·凱利(Stephanie Kelley)等人在《哈佛商業評論》發文就此進行了分析。

原文 :《哈佛商業評論》:敏感數據有助減少人工智慧歧視

編譯 | 鍾麗麗

圖片 |網絡

關於面試誰、為誰提供醫療服務或向誰發放貸款的決定曾經是由人類做出的,但現在,越來越多的決定是由機器學習(ML)算法做出的。雖然對ML算法的投資持續增長,經營效率大大提升——根據麥肯錫最近的一份報告,經營效率提高了30%或更多——但ML模型和個人數據的採用的確伴隨著一定風險,尤其是道德風險。世界經濟論壇將失業、不平等、人類依賴和安全列為使用人工智慧和機器學習的最大風險,到目前為止,實踐中最大的道德風險是歧視。

可以肯定的是,公司不合理的歧視一直存在。歷史上對弱勢群體的歧視導致了若干反歧視法律的制定,包括美國1968年的《公平住房法》和1974年的《平等信用機會法》,以及歐盟性別指令。特別是貸款領域,一直存在性別歧視,以至於抵押貸款中的性別歧視被視為最具爭議的民權話題之一。

從歷史上看,為了防止歧視性決策,個人種族、性別和年齡等敏感數據一直被排除在重要的個人決策之外,如貸款申請、大學錄取和招聘。無論敏感數據是否符合反歧視法或公司的風險管理實踐,公司都很少能夠訪問或使用敏感數據做出影響個人的決策。儘管這種數據排除行為減少了基於人類決策中的歧視,但應用於基於ML的決策時,它反而會產生歧視,特別是當人口群體之間存在顯著不平衡時。

《製造與服務運營管理》最近發表的一項研究證明了以上觀點。它以一家金融科技貸款機構為案例,該機構使用ML算法來決定向誰發放貸款。放款方使用過去借款人的個人數據來訓練ML算法,以生成關於貸款申請人是否會違約的預測。通常情況下,無論是出於法律原因,還是風險管理原因,放款方都不會使用性別等敏感數據。而研究結果顯示,將性別納入其中反而可以顯著減少一半以上的歧視。在不考慮性別的情況下,ML算法過度預測了女性的違約率,而關於男性的違約率是準確的。將性別添加到ML算法中可以糾正這一點,此外,在ML算法中使用性別數據也平均提高了8%的盈利能力。

這不僅僅是性別歧視的問題。雖然研究側重於將性別作為敏感屬性,但當任何具有預測價值的敏感數據(如種族或年齡)被ML算法排除時,都會產生類似的影響。這是因為ML算法從數據中的歷史偏度中學習,當敏感數據類別中有較小的少數群體時,歧視可能會進一步增加。回顧一下曾經的貸款情況。一般來說,女性比男性更適合借債,工作經驗多的人比工作經驗少的人更適合借債。但平均而言,女性的工作經驗也較少,在過去的貸款人中只占少數。按照以上經驗,一個有三年工作經驗的女人是足夠值得信任的,而男人則不盡然。通過獲取性別數據,該算法可以正確預測這一點。但當算法無法獲得性別數據時,它會判斷一個有三年工作經驗的人更像男性,從而拒絕提供貸款。這不僅減少了有利可圖的貸款發放數量(從而損害了盈利性),而且間接加劇了歧視。

現在,監管機構已注意到ML算法的這一缺陷,未來幾年將實施幾項新的人工智慧法規。紐約市「自動僱傭決策工具法」和歐盟《人工智慧法案》都避開了嚴格的數據和模型禁令,轉而選擇基於風險的審計,並關注算法結果,可能允許在大多數算法中收集和使用敏感數據。新加坡金融管理局也已經發布了一套人工智慧道德使用的指導原則,要求業者在使用人工智慧和數據分析時,要關注公平、道德、責任和透明度的標準。

在這種情況下,公司應在與監管機構的對話中發揮積極作用。未來公司在應用ML決策時,可在ML算法訓練之前對數據進行預處理(例如,下採樣男性或上採樣女性),這樣模型數據更均衡,或者從其他變量(如職業、工作經驗與子女數量的關係)中推斷性別,還可以用性別調整模型超參數,並在模型參數估計中去除性別,以減少決策結果的歧視性。

文章為社會科學報「思想工坊」融媒體原創出品,原載於社會科學報第1864期第7版,未經允許禁止轉載,文中內容僅代表作者觀點,不代表本報立場。

拓展閱讀

外刊 | 《經濟學家》:全球生育率下滑影響經濟繁榮

外刊 | 《紐約時報》:勿忽視後疫情時代的空氣品質

文章來源: https://twgreatdaily.com/zh-tw/af40989b10a14b88d645082190622050.html