原創 | 神經現實
從內羅畢的大學畢業幾個月後,30歲的喬(化名)得到了一份標註員的工作。這是一份繁瑣的工作,工作內容是處理用於訓練人工智慧的原始信息。AI是通過在大量數據中尋找模式來學習的,但首先這些數據需要由人類進行分類和標註。這涉及一支龐大的勞動力隊伍,他們大多隱藏在機器的背後。喬的工作是為自動駕駛汽車進行影像標註,他需要逐幀識別各種拍攝角度下的全部車輛、行人、騎行者,以及駕駛員需要注意的所有事物。這是一項困難且重複的工作。一段幾秒鐘的影像需要8個小時來進行標註,而喬的報酬大約是10美元。
然後,在2019年,一個機會出現了:喬為一家迫切渴求標註員的新公司運行一個標註訓練營,以此他可以賺取四倍於以往的收入。每兩周,會有50個新人進入內羅畢的一座辦公大樓開始他們的學徒期。對這項工作的需求似乎無窮無盡。他們被要求對鏡子自拍照中的衣服進行分類,透過機器人吸塵器的眼睛判斷它們所處的房間,以及在摩托車的雷達掃描圖上畫框。通常會有超過一半的學生堅持不到訓練營結束。喬得體而委婉地解釋說:「有些人不知道如何長時間待在一個地方。」他也承認:「這確實非常無聊。」
但這是一份工作,而當地的工作機會並不多。喬培養出了數百名畢業生。離開訓練營之後,他們各自回到家,在臥室和廚房裡獨自工作,並被禁止向任何人透露他們正在做的事情。這實際上並不成問題,因為他們自己也很少清楚自己在做什麼。為自動駕駛汽車標記物體還是容易搞懂的,但對扭曲的對話片段進行分類,區分它們是機器人還是人說的,這是在做什麼呢?又或者要求你上傳一張面無表情盯著攝像頭的照片,然後上傳一張笑臉的照片,再然後上傳一張戴著摩托車頭盔的照片,這又是什麼樣的訓練?每個項目都只是某個更大工序的一小部分,很難搞清它們實際在訓練AI做什麼。項目的名字里也沒有任何線索:螃蟹生成、鯨魚片段、林地陀螺、藥箱香腸。這些都是給無邏輯的工作使用的無邏輯的項目代號。
而至於僱傭他們的公司,大多數標註員只知道它叫Remotasks,這是一個向任何懂英語的人提供工作的網站。像我採訪的大多數標註員一樣,喬在聽到我的介紹後才知道,Remotasks實際上是一家名為Scale AI的公司下設的面向工人的子公司,而Scale AI是一家價值數十億美元的矽谷數據供應商,其客戶包括OpenAI和美國軍方。Remotasks和Scale AI的網站都沒有提到對方。
公眾對語言模型,如OpenAI的聊天機器人ChatGPT的討論,主要集中於它們可能會使之實現自動化的所有工作。但即使是最令人印象深刻的AI系統背後,也有人,而且是大量的人在標註數據以訓練它,並在它混亂時澄清數據。只有買得起此類數據的公司才能參與競爭,而那些得到這些數據的公司有很強的動力對其進行保密。結果就是,除了少數例外,我們對塑造這些AI系統行為的信息知之甚少,對那些塑造這些系統的人更是幾乎一無所知。
對於喬的學生們來說,他們所從事的是一份沒有任何正常外在形式的工作:沒有時間表,沒有同事,對他們在做什麼或為誰工作一無所知。實際上,他們很少稱之為工作——只是「任務」。他們是任務執行者。
人類學家大衛·格雷伯(David Graeber)將沒有意義或目標的工作定義為「狗屁工作」,這種工作本應被自動化,但由於官僚主義、社會地位或惰性的原因而沒有自動化。這些AI的工作是其對立面:人們想要自動化的工作,並且經常認為其已經實現自動化,但實際仍然需要人類的參與。這些工作有其目的,只是工作者常常不知道它是什麼。
- Sarah Wilkins -
當前人工智慧繁榮發展。聊天機器人聽起來幾乎就像人類,人們只需通過簡單的提示就能讓AI生成藝術作品,這些技術背後的公司則有著高達數十億美元的估值。而這一切,都始於一項前所未有的乏味且重複的勞動壯舉。
2007年,人工智慧研究員、當時在普林斯頓大學任教的李飛飛,懷疑改進圖像識別神經網絡(一種已經停滯多年的機器學習方法)的關鍵是用更多的數據進行訓練——要有數百萬個經過標註的圖像,而不是幾萬個。問題是,她的本科生團隊需要幾十年的時間和數百萬美元的資金來標註那麼多的照片。
李飛飛在亞馬遜的眾包平台Mechanical Turk上找到了數千名工人,以低廉的價格僱傭他們在世界各地完成小的任務。最終得到的標註數據集(名為ImageNet)使得機器學習取得了突破性的進展,重新激活了這個領域,並帶來了接下來十年的發展。
標註依然是製作AI的基礎部分,但工程師們時常視其為一個暫時而不便的先決條件,它所通向的是搭建模型這一更為奪目的工作。你儘可能便宜地獲取最多標註數據來訓練模型,理論上,如果模型有效,你就再也不需要標註員了。然而,標註工作從未真正結束。就像研究人員所說的那樣,機器學習系統是「脆弱的」,它無法應付在訓練數據中沒有被很好表示的事物。這些被稱為「邊緣情況」的失敗,可能會帶來嚴重的後果。2018年,一輛Uber的自動駕駛測試車撞死了一名女性。因為雖然該自動駕駛系統的程序設計要求它避開騎自行車的人和行人,但它卻不知道如何對待推著自行車走在街上的人。越多的人工智慧系統被投入世界,去給人們提供法律諮詢和醫療幫助,它們就會遇到越多的邊緣情況,也就需要更多的人去處理這些情況。這已經催生了一個全球性的行業,在其中,像喬這樣的人會利用他們獨特的人類能力來幫助機器。
這是一件紅底白條紋的襯衫,還是白底紅條紋的襯衫?如果一隻藤編碗裝滿了蘋果,它算「裝飾碗」嗎?豹紋是什麼顏色?
在過去的六個月里,我與全球二十多名標註員交談過。雖然他們中的很多人在訓練最前沿的聊天機器人,但這些人在做的是維持AI運行所需的平凡手工勞動。有人在對TikTok視頻的情感內容進行分類,有人在辨認垃圾電子郵件的新變體,還有人在對在線廣告的性挑逗度做精確的判定。其他一些人則在查看信用卡交易,推斷它們與哪種購買行為相關,或者檢查電商平台的推薦,判斷那件襯衫是否真的是你在購買了其他襯衫後可能會喜歡的。人們正在糾正客服聊天機器人,監聽Alexa收到的請求,對視頻通話中的人的情緒進行分類。他們在標註食物,以便智能冰箱不會因為新包裝而搞混;他們在檢查智能安全攝像頭,然後發出警報;他們還在幫助一頭霧水的自動化拖拉機識別玉米。
「全球有一條完整的供應鏈,」非營利性組織Partnership on AI的項目和研究負責人索納姆·金達爾(Sonam Jindal)說,「業界的普遍認識是,這項工作並非開發的關鍵部分,也不會長久需要。所有的激動人心都是關於構建人工智慧,一旦我們建成了,就再也不需要這項工作,那為什麼還要考慮它呢?但它是AI的基礎設施。人類的智能是人工智慧的根本,我們需要將這些工作視為AI經濟中的真實工作,它們將會伴隨我們很長一段時間。」
OpenAI、谷歌、微軟等耳熟能詳的名字背後的數據供應商有著不同的形式。有的是私人外包公司,他們設有像呼叫中心一樣的辦公室,比如把公司開在肯亞和尼泊爾的CloudFactory。喬在轉到Remotasks之前就在那裡以1.20美元的時薪進行標註工作。也有像Mechanical Turk和Clickworker這樣的「眾包」網站,任何人都可以註冊完成任務。介於這兩者之間的是Scale AI一類的服務商。任何人都可以註冊,但是每個人都必須接受培訓,通過資格考試,並接受績效監控。標註是一項大生意。2016年創立的Scale AI,到2021年已估值73億美元,創立公司時僅19歲的亞歷山大·王Alexandr Wang因此被福布斯稱為「最年輕的白手起家的億萬富翁」,儘管該雜誌在最近一篇專題報道中指出,自那時起他在二級市場的股份已經下跌。
- Richard Parry -
這個錯綜複雜的供應鏈被刻意設計得難以釐清。根據業內人士的說法,購買數據的公司要求嚴格保密。(這也是Scale AI解釋為什麼Remotasks有不同名稱時給出的理由。)標註工作會泄露太多關於正在開發的系統的信息,而且大量的工作人員導致秘密的泄露很難防止。標註員被反覆警告不要向任何人,甚至包括他們的朋友和同事透露他們的工作,除了公司別名、項目代號。而且關鍵的是,極其分散的勞動使得他們即使想要談論,也沒有足夠的信息。(大多數工作人員要求使用化名,以免被從平台上除名。)因此,對於從事標註工作的人數並沒有準確的估計,但我們知道這是一個龐大的群體,並且還在不斷擴大。近期一篇谷歌研究院論文給出的數量級是「數以百萬計」,且可能最終將發展到「數以十億計」。
自動化進程常常以出人意料的方式展開。醫療數據標註公司Centaur Labs的執行長埃里克·杜海姆(Erik Duhaime)回憶起幾年前,一些傑出的機器學習工程師預測AI會讓放射科醫生的工作變得多餘。然而,這個預測沒有成真,於是人們普遍的看法轉變為,放射科醫生會將AI作為工具使用。這些觀點都與他所看到的現象略有出入。杜海姆表示,AI在特定任務上的表現非常出色,這使得工作被分解並分配給專門的算法和專門的人。他舉了一個假設的例子。一個AI系統可能能夠發現癌症,但只能在某種特定類型的設備產生的某種特定類型的圖像中。因此,你現在需要一個人來檢查AI是否被提供了正確類型的數據,或許還需要另一個人來檢查它的工作成果,然後把結果傳遞給另一個編寫報告的AI,然後報告又被傳給另一個人,等等。「AI並未取代工作,」他說,「但它的確改變了工作的組織方式。」
如果你覺得AI是一台靈活的思考機器,你可能會看不到這一點。但是,只要你稍微拉開一點帷幕,你就會發現它看起來更為熟悉。這是矽谷特有的新一代勞動力分配方式。在其中,新科技的未來主義光環掩蓋了龐大的製造機構和讓它運轉的人們。杜海姆深入對比歷史中的相似情形,認為這是數字時代的一次工匠向工業製造的轉變:原本內在連貫的單一生產過程被拆分成一個個任務,並按照生產線的順序排列,其中一些步驟由機器完成,另一些步驟由人類完成,但其工作方式都發生了變化。
人們會擔心AI帶來的顛覆,對此經常有一種反駁的論點,即AI自動化的是任務,而非工作,而這些任務會是一些枯燥無味的事情,人們於是可以有更多時間去追求更有成就感和更加人性化的工作。但同樣可能的是,AI的崛起會像過去一些節省勞動力的技術的情形。比如可能會像電話或打字機,它們雖然消滅了傳遞消息和手寫這樣的繁重任務,但新興的通信、商務和文書工作卻帶來了新的需求,需要新類型的工作人員,如文員、會計、打字員來處理這些工作。當AI來取代你的工作,你可能並不會失去工作,但你的工作可能會變得更加陌生,更加孤立,更加枯燥。
-Xiao Hua Yang -
今年早些時候,我註冊了Scale AI的Remotasks。流程很簡明。在輸入了我的計算機配置、網際網路速度和一些基本聯繫信息之後,我發現自己進入了「培訓中心」的頁面。想要接觸到有償任務,我首先需要完成一個相關的(無償的)入門課程。
培訓中心中有一系列名字晦澀的課程,比如膠水游泳衣、海報堅果樹。我點擊了一個叫做「GFD 斷句」的東西,發現它在教你如何標註社交媒體照片中的服裝。
然而,其中的指示卻很奇怪。首先,它們基本上是一些重複的指示,其怪異的顏色和某些大寫字母的排版方式讓人聯想到那些拼貼的炸彈威脅信。「對於真實的、能被人穿戴或本來就打算讓人穿戴的物品,務必要進行標註。」指示中寫道。
「所有以下物品都應被標註,因為它們是真實的,並且可以被現實生活中的人穿戴」,這條指示在Air Jordans的廣告圖片、有人頭戴Kylo Ren頭盔的圖片,以及假人模特穿著連衣裙的圖片上面一再重複。上面有一個酸橙綠色的框再次解釋:「務必標註真實的、能被真實的人穿戴的物品。」
Remotasks的服裝標註指示。
—
The Verge
我瀏覽到手冊的底部,發現了一條大號鮮紅字體的指示,它仿佛在握住你的肩膀猛烈地搖晃你:「下面的物品不應被標註,因為人們無法真正穿上這些物品!」該指示上面的照片內容是C-3PO、《阿拉丁神燈》中的茉莉公主,以及一隻有眼睛的卡通鞋子。
我對自己分辨能被真人穿上的真實衣物和不能被真人穿上的非真實衣物的能力充滿信心,於是我開始了測試。馬上我就遭到了一種本體論式的狡猾攻擊:一張女性穿著連衣裙的雜誌照片。服裝的照片是真實的服裝嗎?我原以為,人類不能穿著一張服裝的照片,所以答案是不。然而,錯誤!在AI的視角中,真實服裝的照片就是真實的服裝。接著出現了一張女子在昏暗的臥室里對著全身鏡自拍的照片。她穿著的上衣和短褲是真實的。那麼它們的倒影呢?也是真實的!真實服裝的倒影也是真實的服裝。
經過令人尷尬的大量試錯,我終於進入到實際的工作環節。此時我卻驚恐地發現,那些我一直努力理解的指示已經被大量更新和細化,現在已經變成了整整43頁的指令:不要標註裝滿衣服的打開的行李箱;要標註鞋子但不要標註腳蹼;要標註緊身褲但不要標註打底褲;不要標註毛巾,哪怕它被穿在身上;要標註戲服,但不要標註盔甲。如此等等。
德國魏岑鮑姆研究所(Weizenbaum Institute)的研究員米拉格羅斯·米切利(Milagros Miceli)稱,行業內普遍存在指令混亂的情況。這在一定程度上是機器學習系統的學習方式導致的。人類只需幾個例子就能理解「襯衫」的概念,而機器學習程序需要數千個例子,而且這些例子需要嚴格遵循一致的分類,同時又足夠多樣化(比如當中要有Polo襯衫、戶外穿著的襯衫、掛在架子上的襯衫),以便這個只能教一個學一個的系統能處理現實世界的多樣性。「想像一下,你要把複雜的現實簡化,讓一個呆笨至極的機器可以理解。」她說。
有一次,維克多連續36個小時沒有睡覺,給一些拍攝人群的照片標註肘部、膝部和頭部——他都不知道為什麼要做這些。
為機器簡化現實的行為,卻讓人類的工作變得繁複。編寫指示的人必須制定規則,讓人類以完全一致的方式進行分類工作。為此,他們經常創造出人類不會使用的分類。如果讓一個人標註照片中的所有襯衫,他可能不會標註鏡子中的襯衫,因為他知道那只是反射,並不真實。然而在對世界沒有絲毫認知的AI眼中,一切都只是像素的組合,二者完全等同。當一個數據集中,有些襯衫得到了標註,而另一些(被反射的)襯衫沒有得到標註時,模型就無法正常工作。於是,工程師就返回供應商,更新指示:務必標註襯衫的反射圖像。很快,你就會看到一個43頁的指南,細則嚴謹,紅字滿篇。
「在你一開始工作時,規則相對簡單,」一位因保密協議而要求匿名的Scale AI前員工說,「然後他們收到了一千張返回的圖片,他們說,『等一下』,接著好多工程師開始互相爭論。這很大程度上是人的事情。」
從事標註員的工作往往要放下人類的理解,非常、非常直接地遵循指示——就像一位標註員所說的,像一個機器人一樣思考。這是一種奇怪的心理狀態,盡最大努力遵循荒謬但嚴謹的規則,就像在迷幻藥物的影響下參加標準化考試。標註員無一例外都會遇到令人困惑的問題,比如,這是一件紅底白條紋的襯衫,還是白底紅條紋的襯衫?如果一隻藤編碗裝滿了蘋果,它算「裝飾碗」嗎?豹紋是什麼顏色?當指示說要標註交通管制人員時,是否也要標註在人行道上吃午餐的交通管制人員?每個問題都必須回答,一個錯誤的猜測可能會導致你不被允許繼續這項任務,並被分配到一個全新的任務中,而這個新任務又有著新的令人困惑的問題。
- Richard Parry -
Remotasks上的大部分工作是按件支付的,一個任務的收入從幾分錢到幾美元不等。因為完全任務可能只需幾秒鐘,也可能需要幾個小時,所以工資難以預測。當Remotasks剛開始進入肯亞時,標註員表示,它的薪酬相對較高——根據任務的不同,平均每小時大約5到10美元。但隨著時間的推移,這個數額在降低。
Scale AI的發言人安娜·弗蘭科(Anna Franko)表示,公司中的經濟學家會分析項目的具體情況、所需技能、地域生活成本及其他要素,「以確保報酬是公平且有競爭力的」。Scale AI的前員工也稱其薪酬遵循一種類似動態定價的機制,會隨著標註員的供給量及數據需求的迫切度而調整。
根據我與工人們的談話以及招聘啟示,坐標在美國的Remotasks標註員時薪為10至25美元,而精通某些領域的人可望獲得更高收益。截至今年年初,我所諮詢的肯亞標註員的時薪已跌至1至3美元。
這是在他們有錢賺的時候。關於Remotasks的工作,最常見的牢騷便是其多變性。雖然它足夠穩定成為一個長期的全職工作,但又過於不可預測而無法提供安全感。標註員花費數小時閱讀指示,完成無償培訓,只為完成十幾個任務,然後項目就告終結。接下來可能連日無新任務,然後毫無預兆地,一個完全不同的任務出現了,它可能持續幾個小時至數周。任何任務都可能是他們的最後一項任務,他們永遠不知道下一項任務何時來臨。
根據工程師和數據供應商的說法,這種繁榮與蕭條的市場需求周期是由AI的開發節奏造成的。培訓一個大型模型需要大量的標註,之後是更多的疊代更新,工程師們希望儘快完成這一切,以便趕上他們的目標發布日期。可能在幾個月的時間裡,市場對標註員的需求是幾千名,然後只需要幾百名,接著只需要幾十名某種類型的專家,然後又是數千名。「問題是,誰為這些波動付出代價?」Partnership on AI的金達爾說,「因為現在,是工人在承受。」
「如果我把某人變成了億萬富翁,而我每周只掙幾塊錢,我真的是在這裡浪費我的生命。」
為了順利完成任務,標註者聯手同行。維克多(Victor),一位在內羅畢的大學裡開始為Remotasks工作的人,聽到我在標註交通管制人員的任務中所遇到的困擾時告訴我,所有人都知道要避開那個任務:太棘手,報酬太低,不值得。就像很多標註者一樣,維克多使用非正式的WhatsApp群組,在好的任務出現時廣而告之。當他摸索出完成新任務的方法時,他會發起臨時的Google會議,向他人展示這一方法。任何人都可以加入,並一同工作一段時間,分享技巧。「我們培養出了互助的文化,因為我們知道,靠一個人的力量無法掌握所有的訣竅。」他說。
由於工作總是無預警地出現和消失,任務執行者總是需要保持警覺。維克多發現,項目通常在深夜冒出來,所以他養成了每隔三個小時左右就醒來檢查任務隊列的習慣。當有任務出現時,他會儘可能長時間保持清醒來工作。有一次,維克多連續36個小時沒有睡覺,給一些拍攝人群的照片標註肘部、膝部和頭部——他都不知道為什麼要做這些。還有一次,他熬夜太久,母親問他眼睛出了什麼問題。他照鏡子才發現眼睛腫了。
標註者通常只知道他們正在為不知在哪裡的公司訓練AI,但有時候,遮擋的面紗會掉落——指示中提到了品牌,或者聊天機器人透露了太多。「我讀完後,Google了一下,發現我正在為一個25歲的億萬富翁工作。」一位工人說。當我們交談時,他正在給點了達美樂披薩的人的情緒做標註。「如果我把某人變成了億萬富翁,而我每周只掙幾塊錢,我真的是在這裡浪費我的生命。」
維克多自稱是AI的「狂熱愛好者」,他開始標註工作就是因為他希望能幫助實現一個完全自動化的後工作時代。但是今年早些時候,有人在他的WhatsApp群組裡分享了一篇《時代》雜誌的文章。文章說有些工人正在訓練ChatGPT識別有害內容,但是供應商Sama AI支付他們的時薪低於2美元。「人們憤怒於這些公司賺取如此多的利潤,卻付給我們如此微薄的工資。」維克多說。在我告知後,他才知道Remotasks與Scale AI的關聯。他從事的一項任務的指示幾乎與OpenAI使用的指示相同,這意味著他可能也在以3美元的時薪訓練ChatGPT。
「我記得有人在網絡上發帖說,將來我們會被人們銘記。」他說。「又有人回應說,『我們比步兵還要受虐。未來沒人會記得我們。』這句話我記得特別清楚。我們的工作,我們的努力,無人能認識,無人會記得。」
-仵浮 -
識別衣物、標記客服對話,只是現有標註工作中的一部分種類。近來,市場上最火爆的崗位是聊天機器人的訓練師。因為這項工作需要特定的專業知識或語言流利,並且工資通常會根據地區進行調整,所以這個工作往往薪酬更高。特定類型的專業標註者可以賺取每小時50美元甚至更高。
安娜(化名)當時在德克薩斯州尋找工作,無意間發現了一個在線工作的通用列表,並提交了申請。這是Remotasks。通過了入門考試後,她被引入了一個有1500人的Slack聊天室,他們正在為一個代號為「Dolphin」的項目進行訓練。她後來發現這其實就是Google DeepMind的聊天機器人Sparrow,它是與ChatGPT競爭的眾多機器人之一。她的工作就是一整天與它對話。她說:「每小時14美元的工資,做的多還有獎金,這肯定比在當地的Dollar General商店每小時賺10美元強多了。」
另外,她也真的很享受這份工作。她曾與機器人討論過科幻小說、數學悖論、兒童謎語和電視節目。有時,機器人的回答讓她發笑。有時,她又找不出要說什麼。「有些日子,我的大腦就像,我實在是不知道現在應該問它什麼了,」她說,「所以我手頭有一個小本子,我已經寫了大約兩頁的內容——就是在網上搜了一些有趣的主題——我想,今天我應該能對付得了七個小時的工作,不過,情況並非總是如此。」
每次安娜給出提示指令,Sparrow都會提供兩種回應,然後她選擇最好的那個,由此生成了所謂的「人類反饋數據」。當ChatGPT於去年底首次亮相時,人們認為其令人印象深刻的自然對話風格,應歸功於大量的網絡數據訓練。但是,訓練ChatGPT及其競爭者的語料,經過了多輪人工標註的過濾。一群承包商會編寫一些樣例,以說明工程師希望機器人如何回應。這些樣例是成對的形式:問題後緊跟正確答案;對電腦程式的描述後緊跟功能代碼;犯罪諮詢後緊跟禮貌的拒絕。在這些樣例上訓練模型後,又會引入更多的承包商,繼續給模型提示,並對其回應進行等級排序。這就是安娜正在對Sparrow做的事情。評級人員所要遵循的具體標準會有所不同,可能是誠實,或是有幫助,或者只是個人喜好。關鍵在於他們正在生成人類品味的數據,一旦有足夠的數據,工程師們就可以訓練出第二個模型,它將大規模地模擬人類標註員的喜好,自動化排序過程,並被用來訓練AI以人類贊同的方式行事。結果我們得到了一個看起來非常像人的機器人,它在大多數情況下會拒絕有害的請求,並在解釋自身的AI本質時看上去就好像有自我意識一樣。
換句話說,ChatGPT之所以看起來像人,是因為它是由模仿人類標註員的AI訓練出來的。人類標註員所訓練的AI也在模仿人類,這些人類假裝自己是基於人類寫作材料被訓練出來的AI的進階版本。
這一路線曲折的技術被稱為「通過人類反饋進行強化學習」(RLHF),其效果如此顯著,以至於我們需要暫停一下來充分理解它的局限性。例如,當標註員教模型怎樣是準確的時,該模型並未學習如何以邏輯或外部信息校驗答案,甚至不會學習「準確」這一概念到底是什麼。模型仍舊是一台模仿人類寫作模式的文本預測機器,只不過現在其訓練語料庫已增加了定製的樣例,且模型被調整以偏好這些樣例。也許會出現這樣的情況:模型從其語言圖譜中標記為準確的部分中提取模式,其生成的文本剛好與事實相符。但也可能出現這樣的情況:模型模仿準確文本中自信的風格和專業術語,卻寫出完全錯誤的內容。沒有任何保證說標註者標記為準確的文本事實上就是準確的,而且即使它是,也無法保證模型從中學到正確的模式。
這一動態發展過程使得聊天機器人的標註過程變得非常精細。它必須嚴謹一致,因為粗糙的反饋,如將僅看起來正確的材料標記為準確的,可能會將模型訓練成更具說服力的胡說八道者。OpenAI和DeepMind的一項早期聯合項目使用了RLHF(通過人類反饋進行強化學習),以訓練一隻虛擬的機器人手臂抓取物品,結果它同時還學會了將手放在物體和評級人員之間晃動,這樣它只是在人類監督者那裡看起來抓住了物品。對一個語言模型的回答進行評級總會有些主觀,因為這涉及語言。任何長度的文本都會有多個元素,它們可能正確,可能錯誤,或者文本整體具有誤導性。OpenAI的研究人員在另一篇研究RLHF的早期論文*中遇到了這個困難。研究人員試圖讓模型總結文本,最終發現他們只有60%的時間同意一個總結是好的。「與機器學習中的許多任務不同,我們的問詢沒有明確的基於客觀事實的答案。」他們感嘆道。
當安娜評估Sparrow的回應時,她需仔細注意其準確性、有用性和無害性,同時確認這個模型沒有給出醫療或財務建議,沒有將自身擬人化,也沒有觸犯其他準則。為了成為有效的訓練數據,模型的回答必須在可量化的意義上得到排序:一個會告訴你如何製作炸彈的機器人,以及一個因太過無害而拒答任何問題的機器人,哪一個「更好」?在一篇DeepMind的論文中,當Sparrow的製造者輪流進行標註時,四位研究人員激烈地爭論起他們的機器人是否對一位向它尋求戀愛建議的用戶進行了性別假設。據DeepMind的研究科學家傑弗里·歐文(Geoffrey Irving)說,公司的研究人員每周會開展標註會議,他們在會上重新評價數據並討論模稜兩可的案例。當遇到尤其棘手的案例時,他們會諮詢倫理或主題專家。
有人在對TikTok視頻的情感內容進行分類,有人在辨認垃圾電子郵件的新變體,還有人在對在線廣告的性挑逗度做精確的判定。
安娜經常發現自己必須在兩個糟糕的選擇中做出決定。「即使它們都絕對錯誤,錯到可笑,你仍然需要弄清哪個更好,然後寫下你的理由。」她說道。有時,當兩個回應都很糟糕時,她被鼓勵自己寫出更好的回應,她大概有一半的時間會這麼做。
因為反饋數據難以收集,所以它的價格較高。根據了解行業的人士,像安娜正在生產的這種基本偏好的類型大約為每條1美元。但是,如果你想訓練一個模型進行法律研究,你需要一個有法律訓練的人,這會變得昂貴。每個參與者都不願透露他們花了多少錢,但通常來說,專業的書面示例可以要價幾百美元,而請專業人士評級可能要花費50美元或更多。有一位工程師告訴我,他花高達300美元買了一段蘇格拉底式對話的示例。另一人告訴我,他花15美元買了一首「關於金魚的黑色幽默的五行詩」。
OpenAI、微軟、Meta以及Anthropic對於有多少人為其模型提供標註,他們獲得了多少薪酬,以及這些人分布在世界哪些地區等問題均未發表評論。DeepMind(Google子公司)的歐文表示,為Sparrow工作的標註者的薪酬至少達到了能在其所在地「維持生活的時薪」。安娜對Remotasks「一無所知」,但Sparrow的情況相對更為公開。於是她從正在訓練的AI那裡獲取信息。安娜並不是個例,很多跟我交談過的標註者從AI那裡獲取的信息,甚至比從僱主那裡得到的更多。有幾個人通過詢問AI所在公司的服務條款,了解了他們為誰工作。安娜說:「我直接問它,『你的目的是什麼,Sparrow?』」它提供了指向DeepMind網站的連結,並解釋說它是一種AI助手,其創造者使用RLHF進行訓練,以使其有助於人類並保證其安全性。
- roselle -
直到最近,辨認出語言模型的糟糕輸出還是一件相對容易的事,那些輸出看起來就像胡言亂語。但隨著模型的改進,這個問題變得越來越難——這就是所謂的「可擴展監督」(scalable oversight)問題。Google在其AI助手Bard的首秀上無意中展示了現代語言模型中的錯誤有多難被發現,當時Bard犯了一個錯誤,它自信地宣稱詹姆斯·韋伯太空望遠鏡「拍攝了首張在我們太陽系之外的行星的照片」——這是錯誤的。這樣的發展軌跡意味著,標註越來越需要特定的技能和專業知識。
去年,劉易斯(化名)在Mechanical Turk上完成一項任務後收到了一條消息,他被邀請申請一個從未聽說過的平台。這個平台叫做Taskup.ai,其網站異常簡潔,只有一個深藍色的背景,上面的文字寫道:「按需完成任務並獲得報酬。」他提交了申請。
這份工作的報酬比他之前嘗試過的任何工作都要好,時薪通常約為30美元。這份工作也更具挑戰性。他需要精心設計複雜的場景,誘導聊天機器人給出危險的建議,以考驗模型保持角色設定的能力。他也會探討科學話題,這些話題深奧到需要做大量的研究。劉易斯覺得這份工作「令人滿足且振奮」。他在檢查一個模型嘗試用Python編程的過程中,也在不斷學習。他不敢連續工作超過四個小時,以免心力耗竭,犯下錯誤,而他希望保住這份工作。
「如果有一件事是我可以改變的,那我希望能了解更多關於工作另一端的情況,」他說,「我們只知道完成工作所需的信息,但如果我能知道更多,那我或許能做得更好,並考慮將此作為一種職業。」
除了劉易斯,我還與其他八位類似的工作者交談過。他們大多都在美國。他們也是在一些平台上填寫了調查問卷,或完成了任務後,被Taskup.ai或其他幾個類似的通用網站,如DataAnnotation.tech或Gethybrid.io招募過來。他們的工作通常是訓練聊天機器人,不過相比他們之前在其他網站的工作,新工作要求更高的質量,訓練目的也更加特殊和專業。有一個人的任務是演示電子表格中宏的操作,另一個人只需進行對話並根據她想要的任何標準來評估回應。她經常問聊天機器人一些她七歲的女兒在談話中提出的問題,比如「什麼是最大的恐龍?」和「寫一個關於老虎的故事」。「我還沒有完全理解他們想要用它做什麼。」她對我說。
Taskup.ai、DataAnnotation.tech和Gethybrid.io似乎歸同一家公司所有:Surge AI。其執行長埃德溫·陳(Edwin Chen)並未證實也未否認這一聯繫,但他願意談論他的公司以及他如何看待標註工作的發展。
「我一直覺得標註領域過於簡單化。」Surge AI辦公室里的陳在視頻電話中說道。他在Google、Facebook和Twitter做過AI相關的工作,之後於2020年創辦了Surge AI,因為他確信眾包的標註工作是不夠的。「我們希望AI能講笑話,能撰寫出色的市場營銷文案,或者在我需要治療或其他什麼的時候能幫助我,」陳說,「你不能要求五個人分別想一個笑話,然後將它們組合成一個主流答案。並非所有人都能講笑話或解決Python編程問題。這種低質量、低技能的標註觀念需要變得更豐富,要能夠抓取那些我們希望AI系統擁有的人類技能、創造力和價值觀。」
- Richard Parry -
去年,Surge AI重新標註了谷歌對Reddit帖子的情緒分類數據集。之前,谷歌曾將每條發言從上下文中剝離,並將它們送給印度的工作人員進行標註。熟悉美國網際網路文化的Surge AI員工發現,30%的標註都是錯誤的。像「hell yeah my brother」這樣的帖子被歸入煩惱的類別,「Yay, cold McDonald’s. My favorite」被歸入喜愛的類別。
Surge AI聲稱會對其工作人員進行資質審查,例如,做創意寫作任務的人要有創意寫作經驗。但陳表示,Surge AI找到工作人員的具體方式是「獨有且保密的」。就像Remotasks一樣,工作人員通常需要完成培訓課程,但與Remotasks不同的是,根據我與標註者的交談,他們是有報酬的。陳說,擁有數量較少、訓練有素的工人,同時產生更高質量的數據,這使Surge AI能夠比其他同行提供更好的報酬。但他拒絕進一步的說明,只說人們得到了「公平和合乎道德的工資」。我採訪的工人每小時的收入在15到30美元之間,但他們只是所有標註者中的一小部分,陳說,現在這個群體已經有10萬人。他解釋說,這種保密是由於客戶對保密性的要求。
Surge AI的客戶包括OpenAI、谷歌、微軟、Meta和Anthropic。Surge AI擅長反饋和語言標註,ChatGPT推出後,它收到了大量的請求。陳說:「我原以為每個人都知道RLHF的力量,但我猜人們並沒有從內心深處理解它。」
新的模型非常令人印象深刻,它們激發了另一輪預測,即標註即將實現自動化。考慮到涉及的成本,需要標註的公司有很大的財務壓力來實現這一點。Anthropic、Meta以及其他公司,近期在利用AI大幅減少指導模型所需的人工標註方面取得了一定的突破,其他開發者也開始使用GPT-4生成訓練數據。然而,近期的一篇論文發現,GPT-4訓練出來的模型可能學會了模仿GPT的權威式風格,但準確性反而有所下降。此外,儘管人工智慧的提升使得某種形式的標註變得過時,但對更複雜類型的標註的需求反而上升。這場爭議在今年初被推向公眾視野,當時Scale AI公司的執行長亞歷山大·王在推特上預測,人工智慧實驗室會像對待算力一樣,在人類數據上投入大量資金。OpenAI的執行長薩姆·阿特曼(Sam Altman)回應說,隨著人工智慧的改進,對數據的需求將會下降。
「我的意思是,它能做的事情令人驚訝,」她如此評價聊天機器人,「但它仍然會做一些真的很奇怪的事情。」
陳對AI是否有一天可以無需人類反饋表示懷疑,但他確實看到,隨著模型的改進,標註工作變得更加困難。像許多研究者一樣,他認為將來的發展路徑是人們會藉助AI系統來監督其他AI。Surge AI最近與Anthropic進行了一項概念驗證實驗的合作。他們讓人類標註員在不可靠的AI助手的幫助下回答長長的問題,其理論是,人類將不得不探究他們的AI助手的弱點,並協作推理出正確的答案。另一種可能的方式是讓兩個AI進行辯論,再由人類最終判定哪個是正確的。「我們還沒看到這些方式真的被很好地實踐,但它們開始變得必要,因為標註員越來越難跟上模型的發展了。」 OpenAI的研究科學家約翰·舒爾曼(John Schulman)最近在伯克利的一次演講中說道。
「我認為你總是需要一個人來監控AI正在做什麼,因為它們就是這樣一種外星人一樣的存在。」陳說道。機器學習系統實在是太奇怪了,人們不能完全信任它。他還補充說,如今最令人嘆為觀止的那些模型,在人類看來都有些詭異的弱點。例如,GPT-4能夠生成複雜而令人信服的文章,卻無法區分出哪些詞是形容詞。「要不然就是模型變得非常優秀,在所有事物上都超越了人類。如果是這種情況,你就進入了烏托邦,誰會在意人類要不要監督AI這種事情呢?」
2022年末,喬開始聽到他的學生反饋,他們的任務隊列經常為空。然後,他收到一封電郵,告知他肯亞的培訓營將要關閉。他繼續在線培訓工作者,但他開始擔憂未來。「有跡象表明工作無法持久。」標註工作正在離開肯亞。他從網上認識的同事那裡聽說,任務正在轉向尼泊爾、印度和菲律賓。「公司從一個地方轉向另一個地方,」喬說,「他們在當地沒有基礎設施,因此他們可以靈活地轉移到運營成本更低的地方。」
AI行業與手機和汽車製造商的一個不同之處在於其流動性。工作內容不斷變化,工作不斷被自動化,並被新類型的數據需求取代。這是一條生產線,但這條生產線可以被無限次且即時地重新配置,轉移到擁有合適的技能、帶寬和工資組合的任何地方。
最近,報酬最高的工作在美國。五月份,Scale AI開始在自己的網站上發布標註工作,尋求幾乎所有在AI預計會征服的領域中經驗豐富的人。招聘的專業AI訓練者所屬的領域包括:健康指導、人力資源、金融、經濟、數據科學、編程、計算機科學、化學、生物、會計、稅收、營養學、物理、旅遊、K-12 教育、體育新聞和自助學習等。你可以以45美元的時薪教機器人法律,或者以25美元的時薪教它們詩歌。有些崗位在招聘通過安全審查的人,這很可能是為了幫助訓練軍用AI。Scale AI最近推出了一個名為Donovan的防禦語言模型,亞歷山大·王將其稱為「AI戰爭中的彈藥」,並借其贏得了軍方機器人戰車項目的合同。
安娜還在德克薩斯州培訓聊天機器人。她的同事們變成了審查員和Slack管理員——她不清楚原因,但這給了她希望,這個兼職或許能成為一個長期的工作。她唯一不擔心的就是自動化會讓她失去工作。「我的意思是,它能做的事情令人驚訝,」她如此評價聊天機器人,「但它仍然會做一些真的很奇怪的事情。」
Remotasks首次來到肯亞時,喬認為標註會是一個好的職業。即使工作機會已經轉移到其他地方,他仍決心將其變為他心中的好職業。他推斷,內羅畢有數千人知道如何做這項工作——畢竟他培訓過許多人。喬在市裡租了個辦公室,並開始尋找客戶。他找到了一項為建築公司標註藍圖的工作,又找到了一項為某農業項目標註被蟲子咬壞的水果的工作,還有那些為自動駕駛汽車和電商做標註的常規工作。
但他發現自己的願景難以實現。他現在只有一個全職員工,之前他有兩個。「我們沒有持續的工作流。」他說。有好幾周的時間,因為客戶仍在收集數據,所以他們沒有任何事情可以做。而當客戶完成數據收集,他必須引進短期合同工以滿足客戶的期限要求。「客戶並不在乎我們是否有穩定的工作。只要數據集完成,一切就結束了。」
於是,一些工作者決定不讓他們的技能被浪費,工作機會在哪裡,他們就追去哪裡。他們租用代理伺服器來偽裝他們的位置,購買假身份證以通過安全檢查,假裝自己是在新加坡、荷蘭、密西西比或任何有任務的地方工作。這是一件冒險的事情。根據多位工作者的說法,Scale AI對於被發現偽裝位置的帳號變得越來越嚴厲。在其中一次打擊行動中,我的帳號被封禁,可能是因為我一直在使用VPN查看其他國家工作者頁面的內容,我的全部1.50美元左右的收入都被凍結。
「現在我們變得有點狡猾,因為我們注意到在其他國家他們支付的薪酬很高」,維克多說,他在馬來西亞做任務的收入是肯亞的兩倍。「你得謹慎行事。」
另一位肯亞的標註員說,他的帳號因莫名的原因被暫時封禁後,他決定不再按規則辦事。現在,他有多個國家的多個帳號,在報酬最高的地方做任務。他說,他工作迅速,在質檢中得分很高,而這要感謝ChatGPT。他說,這個機器人很棒,讓他能在幾分鐘內快速完成10美元的任務。我們交談時,他正在讓它根據七個不同的標準評估另一個聊天機器人的回應,用一個AI在訓練另一個AI。
作者:Josh Dzieza | 譯者:ChatGPT&光影
審校:安靜蟲 | 編輯:宴梁
排版:鹽 | 封面:Richard Parry
原文:
https://www.theverge.com/features/23764584/ai-artificial-intelligence-data-notation-labor-scale-surge-remotasks-openai-chatbots