數據標註員,困在大模型里

2023-09-25     AI狐頭條

原標題:數據標註員,困在大模型里

原創 | 智能湧現
AIEmergence

文|林煒鑫

編輯|蘇建勛 楊軒

封面來源|IC photo

在一家網際網路大廠做數據標註的小顏,時常在公司感到一種隔絕。

小顏的工位,跟產品經理、程式設計師們挨在一起,他們能享受相同的福利:同樣的工牌、蘋果電腦;隨時可以去健身房,或去太空艙睡一覺。

但小顏能察覺到,作為數據標註員的她和其他同事,分屬於「兩個世界」。

儘管大家是一個團隊,但每天的早會,沒人會喊上標註員,小顏只能偷偷摸摸在門外看。有一回,有人推來一車檯燈,是團隊正在做的AI產品樣機,程式設計師們圍了上去,很興奮,拿在手裡把玩。標註員們則坐在工位忙自己的事,毫無波瀾。「他們不知道那個產品,就是靠標註的數據做出來的。」

入職時,小顏所在的公司正在開發一款教育類AI產品,需要標註大量數據以訓練AI。公司買來堆積如山的中小學習題冊,小顏的工作是拍下每一道題,然後在電腦上對這些題目拉框,做標註。

同樣是為AI工作,程式設計師清楚地意識到自己的工作價值,享受著算法不斷進步帶來的快感,但幾乎沒有標註員會覺得,正是自己的勞動創造了AI。

人工智慧的進步離不開數據標註。近幾年自動駕駛的發展,帶動了數據標註的市場。據德勤的報告顯示,2022年自動駕駛領域的標註需求占整個AI下游應用的38%,預計到2027年,比例將上漲到52%。

今年大模型興起,給數據標註行業再添一把火,大量基於大模型訓練場景的訂單朝數據標註公司飛去,看上去,數據標註這個枯燥的生意,再次注入活力。

一些技術公司走得更前列,正在嘗試使用AI自動合成數據,供AI訓練。合成數據是基於少量真實數據,用AI無限生成、無需標註的數據,而不再依賴人工標註。在自動駕駛領域,合成數據可以覆蓋一些極端路況,比如行人突然闖入馬路等。

在他們的暢想中,今後合成數據將取代人工標註。沒有技術、只靠人力的標註公司將被逐步淘汰。一項數據顯示,國外用於人工智慧的基礎數據中,已有70%是合成數據,這條路正在被驗證。

對數量龐大的數據標註員來說,上述內容並不是好消息。然而36氪接觸的一些標註員,還不清楚ChatGPT到底是什麼,他們的反應像是第一次聽說這個名詞。

小顏說,標註員是一個隨時可以被切掉的尾巴。唯一的懸念是,這一刀何時徹底落下。

訓練機器的標註員們,覺得自己更像機器

小河的專業是英語系,大四那年在一家大廠實習。第一天上班,辦公室在一棟寫字樓里,寬敞、乾淨,完全符合她對網際網路公司的想像。沒多久她意識到,面試所了解的工作內容——「整理、分類公司語音數據」,其實就是數據標註。

後來小河承認,如果知道那是給AI打工的起始,她會立即走人。

組裡有6個實習生,都是名校外語系的同學。一個女組長每天分派任務。有時是一堆英語音標,小河的任務是區分出英音和美音;有時是一份Excel,點開,滿眼都是數據,往下拉,足足有一萬多條。

「感覺像爬一座山。」小河說。

做過最多的「項目」,是中學生的口語標註。標註員習慣把工作說成項目,一個項目接著一個項目。小河一天要聽200條帶濃重口音的錄音,每條兩分鐘。聽到一般疑問句,打1分;聽到特殊疑問句,打2分;都沒聽到就是0分。為了防止泄密,只能用辦公室的有線耳機,小河聽得耳朵酸脹,「不由自主的煩躁」。

她經常聽到錄音出現髒話。有的小孩口語沒講幾句,就開始飆國罵。還有一次做地圖導航的項目,有人不由分說,在錄音里謾罵。「我不知道為什麼有人會有那麼大的怒氣。」

小河說,你不能太當回事,只能給這條錄音打個標「無意義」,然後翻篇,繼續聽下一條。

「像個機器一樣」,幾乎每個標註員都會這樣形容自己。標註不費腦子,一位山東的標註員說,做過最困難的項目是指紋標註。她拿到一堆不知道是誰的指紋圖(有些還很模糊),需要沿著指紋的邊緣一點點拉框。「那天回家後,閉眼都是指紋。」

許多項目要求標註員嚴格保密,但標註員也不關心項目用途是什麼。上班期間,標註員被要求交出手機,放在牆上的掛袋裡。只有接到電話時,才允許他們取回手機。

多數標註員經歷過從生疏到熟練,從新鮮到乏味的過程。項目的前期是最有趣的,那時標註規則還不完善,他們經常碰到爭議地方,就會互相討論甚至爭論,氣氛很熱鬧。到了中後期,規則差不多定型,就只剩下重複的、機械的勞動,人就會陷入無意義感。

一位標註員說,這是一份「沒有頭腦的工作」。

江西撫州,當地職校學生在做數據標註;圖源:IC photo

上海大學教授賈文娟做過數據標註的田野調查,她認為數據標註不是腦力勞動,也不是體力勞動,而是認知勞動,「人出售的是自己的認知」。黑色幽默的地方是,我們想讓機器變得更像人,同時卻把人變得像機器。換句話說,拋開人的常識,像機器人那樣思考。

而一旦標註員開始思考「我為什麼要做這個」,就意味著他離辭職不遠了。

鄭委是一家數據標註公司的老闆,他直言,留不住人。公司最好的光景,也不到20人。新員工經常只能堅持半個月,不少人第一天來上班,第二天就跑了。他只好不停降低招人要求,到最後,他感到「不是我在選人,而是人家在選我」。

他不知道怎麼挽留那些要走的人,「你留在這兒會越來越好,這種話其實我自己都不太相信。」鄭委告訴36氪。員工流失最終壓垮了公司,只剩下兩名標註員的時候,他決心解散團隊。沒過多久,ChatGPT掀起了新一輪AI浪潮。

大模型興起,對數據標註本是利好,然而也加劇了標註團隊的內卷。

提起接活,小代說,現在市場上80-90%的標註項目,單價被壓得非常低,「因為中間的轉包商太多了」,「都想賺差價,不想真的幹活」。他在眾包平台做過兩年標註員,今年創業,組建自己的標註團隊。

數據標註的利潤不高。以自動駕駛的2D拉框來說,大公司的派單價格是一毛一個,接活的標註團隊是8分一個。「現在降到5、6分。」小代說。他算了一筆帳,如果低於8分,他只能虧本。

自動駕駛標註;圖源:appen官網

為了生存,小代大部分時間都在找項目, 混跡於各種平台、貼吧。項目真真假假,不靠譜的居多,小代吃過虧,有一個項目的錢,等了8個月還沒到帳。

後來,他先當兼職標註員,試標、結帳沒問題,才會讓團隊接活。有回聽說平台半夜3點會放一批項目,他提前定鬧鐘去搶單。

人員流失、單價壓低、回款不穩定,像腫瘤一樣,拖垮了這行業里的多數小公司。

沒有一個標註員不嫌棄這份工作,他們掙不到錢,更看不到晉升空間和發展機會,陷入漫長的沮喪和失落。

就在寫這篇稿子的過程中,36氪接觸的標註員大多都離職了。一個女孩說,她一共做了兩個月,到手工資,只有不到三千塊。

內卷的標註員:本科率100%

過去,數據標註的門檻較低。在山東、山西、河南、貴州等地,許多數據標註公司招募了大量廉價勞動力。最常見的包括寶媽、殘疾人、職校學生,只要掌握電腦的基本操作,就能進入這個行業。

來到大模型時代,一場關於數據標註的洗牌和淘汰,正在候選人中悄然進行。

研究人員發現,訓練數據的質量對模型性能有非常大的影響。比起數據量,擁有更高的數據質量,模型的改善效果就更明顯。為了把控數據質量,一些AI公司組建了自己的標註團隊,第一步就是提高入行門檻。

最明顯的,標註員的學歷開始捲起來。

今年四月,一家頭部大模型廠商建立了數據標註基地,招募的第一批標註員,本科率達到100%。公司負責人解釋,大模型數據涉及的知識面廣,評判標準複雜,非常考驗標註師的語言理解能力和邏輯推理能力。

小王剛從大學畢業,回老家找工作時,偶然刷到這個數據標註基地的招聘。於是他參加了面試,順利通過。基地給他發來一份長達30萬字的培訓材料,只有通過培訓考試,才能正式上崗。

標註員每天都在做題。新人一天40道題,熟練工則是70-80道。後台系統給每個人發放題目,大多數是真實用戶和大模型的對話記錄。用戶的問題囊括四海,甚至千奇百怪:這三款手機哪個更好?雞蛋好吃還是扭蛋好吃?成功人士的標準是什麼?林黛玉為什麼要打白骨精?

大模型會有好多個回答,而小王的工作就是閱讀每一個回答,挑出錯誤,並按照質量逐一打分,5分是滿分,1分最低,而3分以下的答案,還需要劃分錯誤類型。答非所問,直接給最低分,要是碰到敏感問題,則不打分,判為「其他」。

排序、打分、評估,這些略顯複雜的標註環節,正是所謂的RLHF(Reinforcement Learning from Human Feedbach,即從人類反饋中強化學習),目的是為了讓大模型與人類價值觀、思維方式不斷對齊,更加可用。OpenAI訓練ChatGPT的過程中採用了RLHF,取得了顯著的效果。

圖源:IC photo

和過去的數據標註相比,大模型的標註規則更加主觀。一位算法工程師在面試標註員時,會問對方這樣的問題:「如果你是企業領導,面對孫悟空、豬八戒、唐僧、沙僧這四類員工,你會更傾向於錄用誰?」

沒有標準答案,他說。這類問題是為了考察標註員有沒有邏輯思維能力。

行業對人才的需求變得迫切。一家名叫愷望數據的初創公司,正在與高校合作,培訓大批高校學生標註員。CEO於旭說,公司去年打造了「愷望數據學院」,已培訓50所學校,超過1500名學生從事數據標註。

當小王給大模型的回答打分時,他經常需要做一些事實核查,工作量全憑運氣。有一回碰到一個題目:寶馬3系和奔馳C系哪個比較好?大模型分別羅列了兩款車的40個參數,每個參數都需要小王查驗。那道題他足足花了半小時。

做標註有一段時間,小王發現他打的分很少超過3分,「AI的回覆還沒有到能讓我覺得很滿意或者很出彩的程度」。他記得有道題是「藍牙耳機壞了,是去看牙醫還是看耳機廠商」,顯然是釣魚問題,但AI的回答讓他眼前一亮,「它說是去修理,而不是去醫院」。

小王對這份工作感到滿意。他每月的底薪是1800元,全勤獎200元,房補200元,算上績效,一個月可以拿到4000元。他說,在當地這個收入算中上水平。他還拉上了自己的髮小,兩人坐在相鄰的工位。

與小王同期培訓的大學生大約20多人,沒兩天就跑得差不多,只剩兩三人。

但我們不必為公司擔心,這裡永遠不缺大學生。一個CTO向36氪吐露了真相:你去看看現在大學生的就業狀況嘛。

最想淘汰人工標註的,不是AI

必須承認,關於數據標註的報道有很多,人們達成的共識包括,這份工作是「網際網路的流水線」,很難長期做下去,以及人工標註最終會被AI取代。

過去一個月,我們花了大量時間和算法工程師、AI公司交流。雖然沒有刷新上述共識,但能隱隱感到,最想淘汰人工的或許不是AI。在AI真正動手之前,那些掌握最先進技術的人已經舉起鐮刀。

在技術世界,數據的重要性不言而喻。算法工程師小段說,如果一個AI業務沒有標註過的數據,他們寫出再好的算法,也會是一盤散沙。標註數據越多越好。薅盡標註員羊毛,是一件穩賺不賠的買賣。

有時,標註員們花四五天做完的數據,算法一小時就能跑完。小段供職於一家網際網路大廠,部門預算充足,養了幾名全職標註員。「我們儘量不想讓標註員閒著。」他說,「領導會看周報,如果覺得任務不多,就讓我們多投放一些任務給他們。」

一位標註員告訴36氪,雖然共事的程式設計師嘴上會說,每個工種都有存在的價值,但仍會不經意間流露出一絲輕視。「當然了,這群人本身就是技術至上。」標註員自我安慰道。

技術的進步速度遠超所有人預期,來到大模型時代,數據質量將直接影響到模型的性能。弄明白這一點,一些AI公司毫不猶豫地告別了數據標註外包商。

「拿回來的數據質量太差,基本沒法用。」一家AI公司的CTO說。他們的核心業務是做AI生成視頻,為此自研了一款模型,能夠無限量生成電商產品視頻。為了訓練模型,他們特意招了50名大學生做數據標註。

如果涉及醫療、金融、計算機等專業領域,大學生也很難被信任。國內一家網際網路大廠除了自建標註基地,還會花錢請專業人士來標註。儘管專業人士在標註行業的占比仍然很小,但作用相當明顯。比如,一個關於社保斷繳的問題,交給熟悉政府文件的專業人士,最讓人放心。

一個公開的秘密是,早在ChatGPT走紅前,OpenAI就組建十幾位博士生來「打標」。八年時間,OpenAI光是訓練模型就花了10億美元。

今年五月,美國一家數據公司開始招聘特定領域的專業人士。這些高級標註員的報酬不再是白菜價,比如法律數據的標註時薪是45美元,詩歌則是25美元。

不過,做標註的無論是藍領還是白領,在一些AI公司的眼裡,都是想要節省的成本。和這些公司交流時,36氪頻繁聽到一個詞:降本增效。

最常見的辦法是,利用AI進行自動化標註。一家數據公司表示,自動化標註的比例已經達到70%以上。

而算法工程師小李和同事正在做更加前沿的嘗試:只要以一小部分的真實數據為藍本,通過生成式AI技術和一系列算法,就能合成高質量的、可供訓練的數據。換句話說,完全不需要人了。

「我們合成數據的售價比人工標註的要便宜一點。」小李說。

合成數據目前主要用在自動駕駛和機器人領域。小李說,當ChatGPT出來後,他便意識到標註數據可能走不通了,最後都要用合成數據。OpenAI創始人Sam Altman也有類似的看法:「合成數據是解決大模型數據短缺的最有效辦法」。

圖源:IC photo

初創公司光輪智能主要做自動駕駛和機器人領域的合成數據。「自動化標註的終局就是沒有標註,」CEO謝晨說,「大部分標註公司沒有看到那麼長遠。」

謝晨向36氪提到,團隊有名同事,此前在一家主機廠做自動化標註,攻克了更複雜的4D-BEV標註。這是業界領先的標註工具,在3D空間中以時間為第四個緯度進行標註,提升自動駕駛系統性能。今年他決心放棄自動化標註,主動找到謝晨,最後入職了光輪智能。

這名同事就是小李。他表示,生成式AI的出現一度讓他非常焦慮,但看到合成數據後,他重新興奮起來。

他的工作目標之一就是「取代(標註)這行業的人」,但又不好意思把話說絕,「很可能就在短期內,可能一兩年。」

最後,讓我們回到標註員的世界。這裡幾乎感受不到由技術飛快發展而產生的焦慮。這裡只有瑣碎、重複的煩躁,還有一些天真的幻想。

大學生小王仍然在老家訓練大模型。我們最近一次聊天,他說,這份工作是一個進入人工智慧領域的機會。公司為他們設定的晉升途徑是,標註員到質檢員、培訓師,再到主管,最後是項目經理。小王的目標是當上主管,然後跳槽去一個離AI更近的崗位。具體是什麼,他還不知道。

與有雄心的小王相比,多數標註員對AI沒有什麼興趣。有個女孩給出解釋,「不太關注高科技。」她做了兩年標註,已經是資深員工,不久前晉升為質檢員。對她來說,標註工作簡單、穩定,「沒有精神內耗」,偶爾還能摸魚。AI攪動科技圈的這一年,她的日子平靜如水。

為數不多的變化是,公司提供的標註工具中多了一個對話機器人。公司告訴大家,在標註時碰到不懂的問題,直接向機器人提問就行,節省時間。效率提升很快,她告訴36氪,之前拉框,一天最多做完五六百個,現在能做七百多。

「多虧了那個機器人。」她說。還沒人告訴她,那叫ChatGPT。

「應受訪者要求,文中部分人物為化名。36氪作者鄧詠儀對文章亦有貢獻。」

文章來源: https://twgreatdaily.com/zh-sg/3f9a6991bc5a2d23a0f905e19e9042a6.html