大數據文摘出品
作者:劉俊寰、牛婉楊
抵制種族歧視最緊張的關頭,MIT忽然被牽扯了進去。
在一篇名為《LARGE IMAGE DATASETS: A PYRRHIC WIN FOR COMPUTER VISION?》的論文中,研究者發現,MIT正在使用的一個高引用圖片數據集Tiny Images存在強烈種族歧視和厭女症標籤。
這個資料庫內,當黑人或猴子出現時,標籤顯示為N*gger這一對黑人的蔑稱詞彙;此外,身穿比基尼或抱著孩子的婦女的圖片被標記為b*tch等這一侮辱性詞彙。
這一曝光引發了學術圈的激烈爭議。得知消息後,麻省理工學院迅速下線了這一數據集,並發布公告稱,由該數據集訓練出的AI系統,會潛在地使用種族主義、厭女症和其他激進術語來描述對象,請所有研究員暫停使用和訓練。
比如,利用Tiny Images訓練的機器學習模型,能夠自動識別並列出靜止圖像中的人和物體,當用戶輸入公園照片,系統會標註出照片中的兒童、成人、寵物、野餐點、花草和樹木。但同時,由於在組合訓練集時採用的方法,系統也可能將女性標記為妓女,黑人和亞裔的標記也多帶有貶義色彩的詞語。
使用該數據集訓練出的神經網絡的應用程式、網站和其他產品,都很有可能在最終分析照片和視頻時出現帶有歧視性的術語。
下線該資料庫後,MIT還表示,將敦促研究人員和開發人員停止使用培訓庫,並刪除所有副本。
一位教授回應稱:「我們深表歉意。」
包含歧視標籤的Tiny Images有什麼用?
Tiny Images數據集創建於2008年,包含了8000萬個微型圖像,主要用於對象檢測技術。之所以被命名Tiny Images,是因為該數據集中的圖片都足夠小,對於比較老舊的圖片非常友好,甚至可以支持2000年代末和2010年代初的計算機視覺算法。
從本質上講,Tiny Images包含了大量照片和帶有描述照片內容的標籤集合,所有這些都可以輸入到神經網絡中,以訓練神經網絡將照片中的圖案與描述性標籤關聯起來。訓練完成後,當向該神經網絡展示一輛自行車時,它就可以準確地做出判斷。
如今,研究員一般會將Tiny Images數據集與更知名的ImageNet數據集一起使用,作為計算機視覺算法的訓練基準,不過,與大名鼎鼎的ImageNet不同,到目前為止,還沒有人對Tiny Images的內容進行過審查。
最近,矽谷一家專注隱私的初創公司UnifyID的首席科學家Vinay Prabhu和愛爾蘭都柏林大學的博士候選人Abeba Birhane對Tiny Images進行了仔細的研究,他們發現,該資料庫內包含了成千上萬張帶有針對黑人和亞洲人的種族主義誹謗標籤圖像,用於女性的標籤也大多帶有貶義色彩。
比如,在該數據集中,黑人和猴子圖片都加了「N*gger」這一對黑人帶有汙衊性質的標籤,穿著比基尼或抱著著孩子的女人,會被標記為「w*ore」或「b*tch」。通過把日常生活中的圖像與帶有侮辱性質的語言聯繫起來,該數據集就會把偏見傳遞給了AI模型,再通過AI的輸出結果強化了這一偏見。
據了解,Tiny Images中圖像主要來源是谷歌,研究人員搜集到這些圖像後將它們歸類在了75000多個標籤下。Tiny Images還擁有一個更小的版本,包含220萬張圖片,此前可以通過麻省理工學院計算機科學和人工智慧實驗室的網站上直接訪問和讀取,不過周一的時候,這個可視化數據集,連同完整的數據集,都從CSAIL網站上被移除了。
這是220萬數據集的可視化截圖,展示了一些被打上「whore」標籤的圖片,出於法律原因打上了馬賽克。這些照片包括一個穿著比基尼的女人和一個母親抱著她的孩子,以及聖誕老人的頭像照等。
Vinay Prabhu和Abeba Birhane將研究結果寫成論文,並打算提交給明年的計算機視覺大會。
論文連結:
https://arxiv.org/pdf/2006.16923.pdf
MIT回應:之前完全沒有意識到,也無法人工檢查
CSAIL的電子工程和計算機科學教授Antonio Torralba說,實驗室根本沒有意識到數據集中存在這些冒犯性的圖像和標籤。「很明顯,只能進行手動篩查,對此,我們真誠道歉。事實上,我們已經將數據集下線,這樣違規的圖片和類別就可以被刪除。」
在CSAIL網站上的一份聲明中,CSAIL表示,由於圖像太小,無法人工進行手動檢查和過濾,數據集將永久離線。
該實驗室還承認,他們在沒有檢查是否有攻擊性圖片或語言被吸收進圖書館的情況下,從網際網路上自動獲取了這些圖片,並敦促人們刪除他們的數據副本:
引起我們注意的是,微小的圖像數據集包含一些貶義詞分類和冒犯的圖像。這是依賴於WordNet中的名詞的自動數據收集過程的結果。我們對此深表關切,並向可能受到影響的人們表示歉意。
由於 數據集太大(8000萬幅圖像),而圖像太小(32 x 32像素),人們很難從視覺上識別其內容。因此, 人工檢查,即使可行,也不能保證令人反感的圖像被完全刪除。
所以,我們決定 正式撤回數據集。它已經永久下架。我們要求社區今後不要再使用它,並刪除任何可能已經下載的數據集的現有副本。
Torralba教授向我們介紹了圖片資料庫的建設方式:獲得了大量單詞(包括貶義詞),然後編寫代碼以使用這些單詞在網絡上搜索圖像並將其結合在一起。因此最終得到的是一個包含原始網際網路資料的數據集。
Torralba教授說:「這個數據集包含53,464個不同的名詞,都是直接從WordNet拷貝過來的。」
WordNet是普林斯頓大學(Princeton University)一個將英語單詞分類成相關集的資料庫。「然後這些系統就會自動從當時的網際網路搜尋引擎上下載相應名詞的圖片,並使用當時可用的過濾器來收集8000萬張圖片。」
WordNet是在20世紀80年代中期在普林斯頓大學的認知科學實驗室中創建的,該實驗室由認知心理學創始人之一George Armitage Miller領導。「Miller對單詞之間的關係非常著迷,」Prabhu告訴我們。「這個資料庫基本上繪製了單詞之間是如何關聯的。」這也是ImageNet的靈感來源。
例如,「貓」和「狗」的關係比「貓」和「傘」的關係更密切。但是,WordNet中的一些名詞是種族主義俚語和侮辱。幾十年後的今天,隨著學者和開發人員使用資料庫作為方便的英語詞彙倉庫,這些術語困擾著現代機器學習。
Birhane告訴El Reg:「當你構建巨大的數據集時,你需要某種結構。」這就是為什麼WordNet非常有必要。它提供了一種方法,為計算機視覺研究人員分類和標籤他們的圖像。既然你可以用WordNet,為什麼還要自己動手呢?」
作為一個單詞列表,WordNet本身沒什麼害處,不過當與圖像和AI算法結合在一起時,它可能會產生令人不安的後果。
Birhane說:「這個WordNet項目的目的是繪製出彼此接近的單詞。但當你開始把圖片和這些詞聯繫起來時,你是在把一個真實的人的照片和那些有害的詞語聯繫起來,這些詞語會使人們的成見根深蒂固。」
ImageNet也有同樣的問題,因為它也是使用WordNet進行注釋的。一項名為「ImageNet Roulette」的實驗允許人們將照片提交給由ImageNet訓練出來的神經網絡,該神經網絡將使用數據集中的標籤來描述這些圖片。不出所料,人們在系統中輸入的是他們最感興趣的照片:自拍,而軟體會輸出一些種族主義和冒犯性的標籤描述他們。
在這些龐大的數據集中,有問題的圖像和標籤所占的比例很小,並且很容易將其作為異常現象清除掉。Prabhu和Birhane認為,如果將這些材料用於訓練現實世界中使用的機器學習模型,則很可能導致真正的傷害。
他們在論文中寫道:「缺乏對規範數據集的規範,會對女性、種族和少數民族以及處於社會邊緣的弱勢個體和社區造成不成比例的負面影響。」
少數群體在AI訓練數據集中往往沒有得到重視,這也是人臉識別算法在識別女性和膚色較深的人時遇到困難的原因。今年早些時候,底特律的一名黑人被面部識別軟體誤認為小偷嫌疑人,被警察錯誤逮捕。
這也是為什麼本月早些時候,一個有爭議的人工智慧算法從低解析度的快照中生成高解析度的圖像,把一張歐巴馬的模糊照片變成更像白人而不是黑人的原因。
Birhane說:「人們不會考慮這些模型將如何應用或將其用於什麼領域。他們可能只會想到『這是我可以做到的一件很酷的事情』,但是,當深入思考,就會開始發現所有潛藏在表面的黑暗的目的,也可以逐漸了解這些危害是如何顯現的。」
為收集圖像數據,ImageNet和Tiny Images等巨型資料庫通常在未經人們同意的前提下,從Flickr或Google Images進行爬取照片。
Facebook目前的做法相比是比較可取的,他們聘請了同意將自己的臉部數據用於數據集的人員,這些數據集旨在教授軟體以檢測計算機生成的偽造圖像。
Prabhu和Birhane表示,社交網絡可能是一個好方法,儘管他們也指出,學術研究不太可能有足夠的資金支付數據集所需照片量的相關費用。他們說:「我們承認,對於創建理想的數據集,可能不存在絕對完美的方案,但這也並不意味著我們應該放棄嘗試。」
他們提出,在關注對象識別的數據集中模糊人臉,仔細篩選圖像和標籤,去除任何令人反感的材料,甚至使用真實的合成數據訓練系統,「完全無需將種族侮辱、色情或兒童色情圖片囊括在其中,做好科學和遵守道德標準不會相互排斥」。
反種族歧視戰火燒到AI圈:Yan Lecun被罵退推特,Jeff Dean也躺槍
學術圈「中槍」在MIT道歉之前就已經有所顯現。
昨天,谷歌AI掌門人Jeff Dean因關注了一名種族主義博主捲入糾紛。
簡單來說,就是DeepMind在最近的GAN課程中沒有提及黑人女性研究員Adji B. Dieng的研究成果PresGAN,被這位女研究者各種責問,甚至在推特上發起了」#CiteBlackWomen(引用黑人女性)#的話題。
隨即推特網友@Gwern控訴Dieng有優生主義傾向,這個時候,Dieng在Gwern的關注列表發現了Jeff Dean,並艾特本人,「你也關注了這個人,但我相信你不知道他是一個優生主義者」。目前,Jeff Dean和Deepmind都未作出回應。
再之前,因為一篇被指「種族歧視」的PULSE算法論文,圖靈獎得主、Facebook首席AI科學家Yann Lecun在推特上遭遇了颶風般的「網暴」。
為自己辯解兩周後,Lecun在推特上宣布,自己將永遠退出推特。
再加上今天道歉的MIT,人工智慧研究似乎正成為美國弗洛伊德事件的新戰場,機器學習圈的倫理討論是必要還是矯枉過正?你怎麼看?
文章來源: https://twgreatdaily.com/LmVuD3MBiuFnsJQVPvm9.html