機器學習把歐巴馬識別成白種人!AI 也有種族「偏見」?

2020-06-24     segmentfault官方

原標題:機器學習把歐巴馬識別成白種人!AI 也有種族「偏見」?

技術編輯:芒果果丨發自 思否編輯部

SegmentFault 思否報道丨公眾號:SegmentFault

作為美國歷史上的第一位黑人總統,歐巴馬的膚色有太多意義。

但在一次 AI 生成的圖像中,將歐巴馬低解析度的照片輸入後,輸出的卻是一位白人圖片。

這難道說明了 AI 研究也有根深蒂固的偏見?

不僅僅是歐巴馬,通過同樣的算法輸入低解析度的女演員 Lucy Liu 的照片或女議員 Alexandria Ocasio-Cortez 的照片生成的圖像面孔看起來明顯是白色的。

國外社交網站一則推文引用了歐巴馬的例子說:「這張圖片充分說明了人工智慧存在偏見的危險。」

AI 算法生成逼真「假臉」

但是,是什麼導致了這些結果,它們真正告訴我們人工智慧的偏見是什麼?

首先,我們需要對這裡使用的技術有所了解。 生成這些圖像的程序是一種叫做 PULSE 的算法,該算法使用一種稱為「升級」的技術來處理視覺數據。

這種技術就像你在電視和電影中看到的畫面,通過「放大和增強」使視覺效果更強。但是,不像好萊塢大片中的特效畫面,軟體不能無中生有地產生新的數據。 為了將低解析度圖像轉換為高解析度圖像,軟體必須使用機器學習來填補空白。

就 PULSE 而言,進行這項工作的算法是 StyleGAN,它是由 NVIDIA 的研究人員創建的。雖然算法不是每個人都能了解的,但它生成的「作品」卻被很多人熟知並使用。這個算法生成的怪異逼真的人臉可以在許多網站上找到,並且經常被用來生成虛假的社交媒體個人資料。

PULSE 所做的是使用 StyleGAN 來「想像」高解析度的像素化輸入。 它不是通過「增強」原來的低解析度圖像,而是通過生成一個全新的高解析度的臉,當像素化時,看起來和用戶輸入的一樣。

這意味著每張去像素化的圖片都可以通過多種方式進行高倍放大,就像同一套食材可以做出不同的菜肴一樣。這也是為什麼你可以使用 PULSE 看到遊戲、動畫甚至表情符號生成高解析度的人像圖。算法通過尋找圖像中的細節創造新的面孔還原到輸入數據中。

這種算法已經使用了幾年時間,但是,就像人工智慧領域經常出現的情況一樣,當一個易於運行的代碼版本在網上被分享時,它會吸引更多用戶。從而衍生出更多社會問題,包括種族差異問題。

訓練數據集導致算法結果的偏向性

PULSE 的創建人表示,當使用該算法放大像素化圖像時,該算法更經常生成具有白人特徵的臉部,這一趨勢很明顯。他在 Github 上寫道: 「 看起來 PULSE 生成白人面孔的頻率要比生成有色人種面孔的頻率高得多。這種偏見很可能是從 StyleGAN 所訓練的數據集中繼承而來的,儘管可能還有其他我們不知道的因素。」

換句話說,由於 StyleGAN 所接受的數據訓練, 當它試圖想出一張看起來像像素化輸入圖像的臉時,它默認為白色特徵

但是,歐巴馬的例子究竟揭示了什麼樣的偏見,以及它所代表的問題是如何解決的,這些都是複雜的問題。

在技術層面上,一些專家甚至不確定這是否是數據集偏差的一個例子。人工智慧學者馬里奧 · 克林格曼認為,是 PULSE 選擇算法本身,而不是數據,造成了這一切。克林格曼指出,他能夠使用 StyleGAN 從同一張像素化的歐巴馬圖像中生成更多非白色輸出,如下所示:

克林格曼表示,這些人臉是使用「相同的概念和相同的 StyleGAN 模型」生成的,但使用的是 PULSE 的不同搜索方法。他表示,我們不能僅僅從幾個樣本來判斷算法。他說:「可能有數百萬張可能的臉都會歸結為同樣的像素模式,所有的臉都同樣『正確』。」 (順便說一句,這也是為什麼像這樣的工具不太可能被用於監視目的的原因。這些過程創建的面孔是想像的,並且,如上面的例子所示,與輸入的基本事實沒有什麼關係。然而,這並不是說過去巨大的技術缺陷阻止了警察採用技術。)

但是,不管原因是什麼,這個算法的輸出似乎有偏差ーー在這個工具被廣泛使用之前,研究人員沒有注意到這一點。這說明了一種不同的、更普遍的偏見: 一種在社會層面上起作用的偏見

學界爭論,是數據不正確還是社會不公正?

人工智慧責任研究員 Deborah Raji 認為,這種偏見在人工智慧領域太典型了。他說:「鑒於有色人種的基本存在,忽視對這種情況的測試是令人震驚的,這可能反映了我們在誰來建造這種系統方面繼續看到的缺乏多樣性。有色人種不是局外人。我們不是作者可以忘記的『邊緣案例』。」

事實上,一些研究人員似乎只熱衷於解決數據方面的偏見問題,這引發了關於歐巴馬形象的更大爭論。Facebook 首席人工智慧科學家 Yann LeCun 成為了這些對話的引爆點,他在推特上回應了這張圖片,稱「 當數據存在偏見時,機器學習系統是有偏見的」 ,並補充說這種偏見「在部署的產品中比在學術論文中」是一個更嚴重的問題 其含義是: 讓我們不要過分擔心這個特殊的例子。

包括 Deborah Raji 在內的許多研究人員對 Yann LeCun 的看法提出了質疑,並指出人工智慧中的偏見受到更廣泛的社會不公正和偏見的影響, 僅僅使用「正確」的數據並不能解決更大的不公正

其他人指出,即使從純技術修復的角度來看,「公平」的數據集通常也可以是非公平的。例如,一個準確反映英國人口統計特徵的人臉數據集將以白人為主,因為英國主要是白人。根據這些數據訓練的算法在白人臉上比在非白人臉上表現更好。換句話說,「公平」的數據集仍然可以創建有偏差的系統。(在隨後的 Twitter 帖子中,Yann LeCun 承認人工智慧偏見有多種原因。)

Deborah Raji 稱,他對 Yann LeCun 的看法感到驚訝,Yann LeCun 建議研究人員應該比生產商業系統的工程師更少地擔心偏見,這反映了行業最高層對此缺乏認識。

Deborah Raji 說:「Yann LeCun 領導著一個行業實驗室,這個實驗室致力於許多他們經常尋求產品化的應用研究問題。我實在無法理解,處於這種地位的人怎麼會不承認研究在建立工程部署規範方面的作用。」

「正確」的數據治標不治本,AI 研究應更關注「人」

許多商業人工智慧系統都是直接根據研究數據和算法構建的,沒有對種族或性別差異進行任何調整。在研究階段不能解決偏見問題只會使現有的問題永久化。

因此,從這個意義上講,歐巴馬形象的價值不在於它暴露了單一算法中的一個缺陷,而在於它在直覺層面上傳達了人工智慧偏見的普遍本質。然而,它所隱藏的是,偏見的問題比任何數據集或算法都要深刻得多。這是一個普遍存在的問題,需要的不僅僅是技術上的修復。

正如研究人員 Vidushi Marda 在 Twitter 上對該算法產生的白種人臉做出的回應: 「如果需要明確說明的話——這不是在呼籲數據集中的『多樣性』或性能上的『改進準確性』——這是在呼籲從根本上重新考慮設計、開發和部署這項技術的機構和個人。」

文章來源: https://twgreatdaily.com/zh-mo/tmHh5HIBd4Bm1__YqO9v.html

Flutter 知識點

2020-08-10