計算機視覺系統已經無處不在。它們被用於對社交媒體上的圖像進行分類和標記,檢測圖片和視頻中的物體和人臉,並標註出圖像中的相關元素。
(來源:AI 生成)
然而,它們充滿了偏見,當圖像中包含黑人或棕色人種和女性時,它們就不那麼準確了。還有另一個問題,目前研究人員在這些系統中發現偏見的方法本身就是有偏見的,他們將人類分為各種各樣的類別,卻沒有恰當地體現出不同類別的人類之間的複雜性。
索尼和 Meta 的研究人員撰寫了兩篇新論文,提出了在計算機視覺系統中測量偏見的新方法,以便更充分地捕捉人類豐富的多樣性。這兩篇論文都將在 2023 年 10 月的計算機視覺會議 ICCV 上發表。
開發人員可以使用這些工具來檢查數據集的多樣性,幫助為人工智慧提供更好、更多樣化的訓練數據。這些工具還可以用來衡量生成式人工智慧生成的人類圖像的多樣性。
一般來說,計算機視覺系統中的膚色偏見是用菲茨派屈克量表來測量的,這張表包含了一種人類膚色的分類模式,從淺色到深色。
索尼人工智慧倫理研究員 William Thong 表示,該量表最初是為了衡量白皮膚曬黑程度而開發的,但後來被廣泛用作確定種族的工具。通過比較人工智慧模型對淺色皮膚和深色皮膚的人的準確率,它可以被用來衡量計算機系統的偏見。
但索尼人工智慧倫理全球主管 Alice Xiang 表示,用一維尺度描述人的膚色是一種誤導。通過基於這種粗略的尺度將人們分類,研究人員忽視了一些偏見,例如亞洲人種,其膚色可以分為淺和深兩類,他們在西方人工智慧數據集中的代表性不足。
而且它也沒有考慮到人的膚色會改變的事實。例如,研究人員指出,隨著年齡的增長,亞洲人的皮膚會變得更黑、更黃,而白人的皮膚會變得更黑、更紅。
Thong 和 Xiang 的團隊與《麻省理工科技評論》獨家分享了他們開發的工具,該工具將膚色尺度擴展到兩個維度,測量皮膚顏色(從淺色到深色)和皮膚色調(從紅色到黃色)。索尼將在網上免費提供這個工具。
Thong 說,他的靈感來自巴西藝術家安吉里拉·達斯(Angélica Dass),他的作品表明,來自相似背景的人可以有各種各樣的膚色。但嘗試表現出所有膚色並不是一個新奇的想法。化妝品行業多年來一直在使用同樣的方法。
「對於任何挑選過粉底色的人來說,重要的不僅僅是一個人的膚色是淺色還是深色,還包括暖色調還是冷色調,」Xiang 說。
美國萊斯大學研究計算機視覺模型偏見的助理教授古哈•巴拉克里希南(Guha Balakrishnan)表示,索尼在膚色方面的工作「讓人們了解到了一直被忽視的部分。」
目前,研究人員還沒有一種標準的方法來衡量計算機視覺中的偏見,這使得多個系統之間的比較變得更加困難。
為了使偏見評估更加簡化,Meta 開發了一種新的方法來衡量計算機視覺模型中的公平性,被稱為計算機視覺評估公平性(FACET,Fairness in Computer Vision Evaluation),可用於一系列常見任務,比如分類、檢測和分割。
Meta 的人工智慧研究員蘿拉·古斯塔夫森(Laura Gustafson)表示,FACET 是第一個包含許多不同計算機視覺任務的公平性評估,它比其他偏見評估工具包含了更廣泛的公平性指標。
為了創建 FACET, Meta 將 3.2 萬張人類圖像的免費數據集收集在一起,並聘請了來自世界各地的注釋者來標記它們。注釋者被要求用 13 種不同的視覺屬性來標記這些圖像,比如他們的感知年齡、膚色、性別代表、頭髮顏色和質地等等。
Meta 還要求注釋者根據人們正在做的事情或他們的職業給他們貼上標籤,比如理髮師、滑板運動員、學生、音樂家或體操運動員。研究人員說,這增加了偏見評估的細微差別和準確性。
然後 Meta 使用 FACET 來評估最先進的視覺模型在不同人群中的表現,調查結果顯示了巨大的差異。例如,模型更善於識別膚色較淺的人,即使他們有髒辮或捲曲的頭髮。
美國普林斯頓大學研究計算機視覺模型偏見的博士研究員安吉麗娜·王(Angelina Wang)說,因為世界各地的人們在評估他人的圖像時都帶有自己的偏見,Meta 招募不同國家的注釋者的努力是積極的。
Meta 在網上免費提供數據的事實也將幫助研究人員。注釋數據非常昂貴,所以只有大型科技公司才能大規模使用。「這是一個很受歡迎的補充數據,」巴拉克里希南說。
但是王警告說,一種明智的做法是,現實地看待這些系統可能產生的影響。它們可能只會導致人工智慧領域的小改進,而不是大規模轉型。
她說:「我認為,我們離真正掌握讓人類能夠代表自己的東西還很遙遠,而且可能永遠也做不到這一點。」
作者簡介:梅麗莎·海基萊(Melissa Heikkilä)是《麻省理工科技評論》的資深記者,她著重報道人工智慧及其如何改變我們的社會。此前,她曾在 POLITICO 撰寫有關人工智慧政策和政治的文章。她還曾在《經濟學人》工作,並曾擔任新聞主播。
支持:Ren