數據標註員，困在大模型里

原創 | 智能湧現

AIEmergence

文｜林煒鑫

編輯｜蘇建勛楊軒

封面來源｜IC photo

在一家網際網路大廠做數據標註的小顏，時常在公司感到一種隔絕。

小顏的工位，跟產品經理、程式設計師們挨在一起，他們能享受相同的福利：同樣的工牌、蘋果電腦；隨時可以去健身房，或去太空艙睡一覺。

但小顏能察覺到，作為數據標註員的她和其他同事，分屬於「兩個世界」。

儘管大家是一個團隊，但每天的早會，沒人會喊上標註員，小顏只能偷偷摸摸在門外看。有一回，有人推來一車檯燈，是團隊正在做的AI產品樣機，程式設計師們圍了上去，很興奮，拿在手裡把玩。標註員們則坐在工位忙自己的事，毫無波瀾。「他們不知道那個產品，就是靠標註的數據做出來的。」

入職時，小顏所在的公司正在開發一款教育類AI產品，需要標註大量數據以訓練AI。公司買來堆積如山的中小學習題冊，小顏的工作是拍下每一道題，然後在電腦上對這些題目拉框，做標註。

同樣是為AI工作，程式設計師清楚地意識到自己的工作價值，享受著算法不斷進步帶來的快感，但幾乎沒有標註員會覺得，正是自己的勞動創造了AI。

人工智慧的進步離不開數據標註。近幾年自動駕駛的發展，帶動了數據標註的市場。據德勤的報告顯示，2022年自動駕駛領域的標註需求占整個AI下游應用的38%，預計到2027年，比例將上漲到52%。

今年大模型興起，給數據標註行業再添一把火，大量基於大模型訓練場景的訂單朝數據標註公司飛去，看上去，數據標註這個枯燥的生意，再次注入活力。

一些技術公司走得更前列，正在嘗試使用AI自動合成數據，供AI訓練。合成數據是基於少量真實數據，用AI無限生成、無需標註的數據，而不再依賴人工標註。在自動駕駛領域，合成數據可以覆蓋一些極端路況，比如行人突然闖入馬路等。

在他們的暢想中，今後合成數據將取代人工標註。沒有技術、只靠人力的標註公司將被逐步淘汰。一項數據顯示，國外用於人工智慧的基礎數據中，已有70%是合成數據，這條路正在被驗證。

對數量龐大的數據標註員來說，上述內容並不是好消息。然而36氪接觸的一些標註員，還不清楚ChatGPT到底是什麼，他們的反應像是第一次聽說這個名詞。

小顏說，標註員是一個隨時可以被切掉的尾巴。唯一的懸念是，這一刀何時徹底落下。

訓練機器的標註員們，覺得自己更像機器

小河的專業是英語系，大四那年在一家大廠實習。第一天上班，辦公室在一棟寫字樓里，寬敞、乾淨，完全符合她對網際網路公司的想像。沒多久她意識到，面試所了解的工作內容——「整理、分類公司語音數據」，其實就是數據標註。

後來小河承認，如果知道那是給AI打工的起始，她會立即走人。

組裡有6個實習生，都是名校外語系的同學。一個女組長每天分派任務。有時是一堆英語音標，小河的任務是區分出英音和美音；有時是一份Excel，點開，滿眼都是數據，往下拉，足足有一萬多條。

「感覺像爬一座山。」小河說。

做過最多的「項目」，是中學生的口語標註。標註員習慣把工作說成項目，一個項目接著一個項目。小河一天要聽200條帶濃重口音的錄音，每條兩分鐘。聽到一般疑問句，打1分；聽到特殊疑問句，打2分；都沒聽到就是0分。為了防止泄密，只能用辦公室的有線耳機，小河聽得耳朵酸脹，「不由自主的煩躁」。

她經常聽到錄音出現髒話。有的小孩口語沒講幾句，就開始飆國罵。還有一次做地圖導航的項目，有人不由分說，在錄音里謾罵。「我不知道為什麼有人會有那麼大的怒氣。」

小河說，你不能太當回事，只能給這條錄音打個標「無意義」，然後翻篇，繼續聽下一條。

「像個機器一樣」，幾乎每個標註員都會這樣形容自己。標註不費腦子，一位山東的標註員說，做過最困難的項目是指紋標註。她拿到一堆不知道是誰的指紋圖（有些還很模糊），需要沿著指紋的邊緣一點點拉框。「那天回家後，閉眼都是指紋。」

許多項目要求標註員嚴格保密，但標註員也不關心項目用途是什麼。上班期間，標註員被要求交出手機，放在牆上的掛袋裡。只有接到電話時，才允許他們取回手機。

多數標註員經歷過從生疏到熟練，從新鮮到乏味的過程。項目的前期是最有趣的，那時標註規則還不完善，他們經常碰到爭議地方，就會互相討論甚至爭論，氣氛很熱鬧。到了中後期，規則差不多定型，就只剩下重複的、機械的勞動，人就會陷入無意義感。

一位標註員說，這是一份「沒有頭腦的工作」。

江西撫州，當地職校學生在做數據標註；圖源：IC photo

上海大學教授賈文娟做過數據標註的田野調查，她認為數據標註不是腦力勞動，也不是體力勞動，而是認知勞動，「人出售的是自己的認知」。黑色幽默的地方是，我們想讓機器變得更像人，同時卻把人變得像機器。換句話說，拋開人的常識，像機器人那樣思考。

而一旦標註員開始思考「我為什麼要做這個」，就意味著他離辭職不遠了。

鄭委是一家數據標註公司的老闆，他直言，留不住人。公司最好的光景，也不到20人。新員工經常只能堅持半個月，不少人第一天來上班，第二天就跑了。他只好不停降低招人要求，到最後，他感到「不是我在選人，而是人家在選我」。

他不知道怎麼挽留那些要走的人，「你留在這兒會越來越好，這種話其實我自己都不太相信。」鄭委告訴36氪。員工流失最終壓垮了公司，只剩下兩名標註員的時候，他決心解散團隊。沒過多久，ChatGPT掀起了新一輪AI浪潮。

大模型興起，對數據標註本是利好，然而也加劇了標註團隊的內卷。

提起接活，小代說，現在市場上80-90%的標註項目，單價被壓得非常低，「因為中間的轉包商太多了」，「都想賺差價，不想真的幹活」。他在眾包平台做過兩年標註員，今年創業，組建自己的標註團隊。

數據標註的利潤不高。以自動駕駛的2D拉框來說，大公司的派單價格是一毛一個，接活的標註團隊是8分一個。「現在降到5、6分。」小代說。他算了一筆帳，如果低於8分，他只能虧本。

自動駕駛標註；圖源：appen官網

為了生存，小代大部分時間都在找項目，混跡於各種平台、貼吧。項目真真假假，不靠譜的居多，小代吃過虧，有一個項目的錢，等了8個月還沒到帳。

後來，他先當兼職標註員，試標、結帳沒問題，才會讓團隊接活。有回聽說平台半夜3點會放一批項目，他提前定鬧鐘去搶單。

人員流失、單價壓低、回款不穩定，像腫瘤一樣，拖垮了這行業里的多數小公司。

沒有一個標註員不嫌棄這份工作，他們掙不到錢，更看不到晉升空間和發展機會，陷入漫長的沮喪和失落。

就在寫這篇稿子的過程中，36氪接觸的標註員大多都離職了。一個女孩說，她一共做了兩個月，到手工資，只有不到三千塊。

內卷的標註員：本科率100%

過去，數據標註的門檻較低。在山東、山西、河南、貴州等地，許多數據標註公司招募了大量廉價勞動力。最常見的包括寶媽、殘疾人、職校學生，只要掌握電腦的基本操作，就能進入這個行業。

來到大模型時代，一場關於數據標註的洗牌和淘汰，正在候選人中悄然進行。

研究人員發現，訓練數據的質量對模型性能有非常大的影響。比起數據量，擁有更高的數據質量，模型的改善效果就更明顯。為了把控數據質量，一些AI公司組建了自己的標註團隊，第一步就是提高入行門檻。

最明顯的，標註員的學歷開始捲起來。

今年四月，一家頭部大模型廠商建立了數據標註基地，招募的第一批標註員，本科率達到100%。公司負責人解釋，大模型數據涉及的知識面廣，評判標準複雜，非常考驗標註師的語言理解能力和邏輯推理能力。

小王剛從大學畢業，回老家找工作時，偶然刷到這個數據標註基地的招聘。於是他參加了面試，順利通過。基地給他發來一份長達30萬字的培訓材料，只有通過培訓考試，才能正式上崗。

標註員每天都在做題。新人一天40道題，熟練工則是70-80道。後台系統給每個人發放題目，大多數是真實用戶和大模型的對話記錄。用戶的問題囊括四海，甚至千奇百怪：這三款手機哪個更好？雞蛋好吃還是扭蛋好吃？成功人士的標準是什麼？林黛玉為什麼要打白骨精？

大模型會有好多個回答，而小王的工作就是閱讀每一個回答，挑出錯誤，並按照質量逐一打分，5分是滿分，1分最低，而3分以下的答案，還需要劃分錯誤類型。答非所問，直接給最低分，要是碰到敏感問題，則不打分，判為「其他」。

排序、打分、評估，這些略顯複雜的標註環節，正是所謂的RLHF（Reinforcement Learning from Human Feedbach，即從人類反饋中強化學習），目的是為了讓大模型與人類價值觀、思維方式不斷對齊，更加可用。OpenAI訓練ChatGPT的過程中採用了RLHF，取得了顯著的效果。

圖源：IC photo

和過去的數據標註相比，大模型的標註規則更加主觀。一位算法工程師在面試標註員時，會問對方這樣的問題：「如果你是企業領導，面對孫悟空、豬八戒、唐僧、沙僧這四類員工，你會更傾向於錄用誰？」

沒有標準答案，他說。這類問題是為了考察標註員有沒有邏輯思維能力。

行業對人才的需求變得迫切。一家名叫愷望數據的初創公司，正在與高校合作，培訓大批高校學生標註員。CEO於旭說，公司去年打造了「愷望數據學院」，已培訓50所學校，超過1500名學生從事數據標註。

當小王給大模型的回答打分時，他經常需要做一些事實核查，工作量全憑運氣。有一回碰到一個題目：寶馬3系和奔馳C系哪個比較好？大模型分別羅列了兩款車的40個參數，每個參數都需要小王查驗。那道題他足足花了半小時。

做標註有一段時間，小王發現他打的分很少超過3分，「AI的回覆還沒有到能讓我覺得很滿意或者很出彩的程度」。他記得有道題是「藍牙耳機壞了，是去看牙醫還是看耳機廠商」，顯然是釣魚問題，但AI的回答讓他眼前一亮，「它說是去修理，而不是去醫院」。

小王對這份工作感到滿意。他每月的底薪是1800元，全勤獎200元，房補200元，算上績效，一個月可以拿到4000元。他說，在當地這個收入算中上水平。他還拉上了自己的髮小，兩人坐在相鄰的工位。

與小王同期培訓的大學生大約20多人，沒兩天就跑得差不多，只剩兩三人。

但我們不必為公司擔心，這裡永遠不缺大學生。一個CTO向36氪吐露了真相：你去看看現在大學生的就業狀況嘛。

最想淘汰人工標註的，不是AI

必須承認，關於數據標註的報道有很多，人們達成的共識包括，這份工作是「網際網路的流水線」，很難長期做下去，以及人工標註最終會被AI取代。

過去一個月，我們花了大量時間和算法工程師、AI公司交流。雖然沒有刷新上述共識，但能隱隱感到，最想淘汰人工的或許不是AI。在AI真正動手之前，那些掌握最先進技術的人已經舉起鐮刀。

在技術世界，數據的重要性不言而喻。算法工程師小段說，如果一個AI業務沒有標註過的數據，他們寫出再好的算法，也會是一盤散沙。標註數據越多越好。薅盡標註員羊毛，是一件穩賺不賠的買賣。

有時，標註員們花四五天做完的數據，算法一小時就能跑完。小段供職於一家網際網路大廠，部門預算充足，養了幾名全職標註員。「我們儘量不想讓標註員閒著。」他說，「領導會看周報，如果覺得任務不多，就讓我們多投放一些任務給他們。」

一位標註員告訴36氪，雖然共事的程式設計師嘴上會說，每個工種都有存在的價值，但仍會不經意間流露出一絲輕視。「當然了，這群人本身就是技術至上。」標註員自我安慰道。

技術的進步速度遠超所有人預期，來到大模型時代，數據質量將直接影響到模型的性能。弄明白這一點，一些AI公司毫不猶豫地告別了數據標註外包商。

「拿回來的數據質量太差，基本沒法用。」一家AI公司的CTO說。他們的核心業務是做AI生成視頻，為此自研了一款模型，能夠無限量生成電商產品視頻。為了訓練模型，他們特意招了50名大學生做數據標註。

如果涉及醫療、金融、計算機等專業領域，大學生也很難被信任。國內一家網際網路大廠除了自建標註基地，還會花錢請專業人士來標註。儘管專業人士在標註行業的占比仍然很小，但作用相當明顯。比如，一個關於社保斷繳的問題，交給熟悉政府文件的專業人士，最讓人放心。

一個公開的秘密是，早在ChatGPT走紅前，OpenAI就組建十幾位博士生來「打標」。八年時間，OpenAI光是訓練模型就花了10億美元。

今年五月，美國一家數據公司開始招聘特定領域的專業人士。這些高級標註員的報酬不再是白菜價，比如法律數據的標註時薪是45美元，詩歌則是25美元。

不過，做標註的無論是藍領還是白領，在一些AI公司的眼裡，都是想要節省的成本。和這些公司交流時，36氪頻繁聽到一個詞：降本增效。

最常見的辦法是，利用AI進行自動化標註。一家數據公司表示，自動化標註的比例已經達到70%以上。

而算法工程師小李和同事正在做更加前沿的嘗試：只要以一小部分的真實數據為藍本，通過生成式AI技術和一系列算法，就能合成高質量的、可供訓練的數據。換句話說，完全不需要人了。

「我們合成數據的售價比人工標註的要便宜一點。」小李說。

合成數據目前主要用在自動駕駛和機器人領域。小李說，當ChatGPT出來後，他便意識到標註數據可能走不通了，最後都要用合成數據。OpenAI創始人Sam Altman也有類似的看法：「合成數據是解決大模型數據短缺的最有效辦法」。

圖源：IC photo

初創公司光輪智能主要做自動駕駛和機器人領域的合成數據。「自動化標註的終局就是沒有標註，」CEO謝晨說，「大部分標註公司沒有看到那麼長遠。」

謝晨向36氪提到，團隊有名同事，此前在一家主機廠做自動化標註，攻克了更複雜的4D-BEV標註。這是業界領先的標註工具，在3D空間中以時間為第四個緯度進行標註，提升自動駕駛系統性能。今年他決心放棄自動化標註，主動找到謝晨，最後入職了光輪智能。

這名同事就是小李。他表示，生成式AI的出現一度讓他非常焦慮，但看到合成數據後，他重新興奮起來。

他的工作目標之一就是「取代（標註）這行業的人」，但又不好意思把話說絕，「很可能就在短期內，可能一兩年。」

最後，讓我們回到標註員的世界。這裡幾乎感受不到由技術飛快發展而產生的焦慮。這裡只有瑣碎、重複的煩躁，還有一些天真的幻想。

大學生小王仍然在老家訓練大模型。我們最近一次聊天，他說，這份工作是一個進入人工智慧領域的機會。公司為他們設定的晉升途徑是，標註員到質檢員、培訓師，再到主管，最後是項目經理。小王的目標是當上主管，然後跳槽去一個離AI更近的崗位。具體是什麼，他還不知道。

與有雄心的小王相比，多數標註員對AI沒有什麼興趣。有個女孩給出解釋，「不太關注高科技。」她做了兩年標註，已經是資深員工，不久前晉升為質檢員。對她來說，標註工作簡單、穩定，「沒有精神內耗」，偶爾還能摸魚。AI攪動科技圈的這一年，她的日子平靜如水。

為數不多的變化是，公司提供的標註工具中多了一個對話機器人。公司告訴大家，在標註時碰到不懂的問題，直接向機器人提問就行，節省時間。效率提升很快，她告訴36氪，之前拉框，一天最多做完五六百個，現在能做七百多。

「多虧了那個機器人。」她說。還沒人告訴她，那叫ChatGPT。

「應受訪者要求，文中部分人物為化名。36氪作者鄧詠儀對文章亦有貢獻。」

數據標註員，困在大模型里

14歲男孩殺死了自己，在此之前，他迷上了他的AI伴侶

暴跌125億！AI「巨頭」萬興科技，泡沫有多大？

AI重構下的百度網盤：限速頑疾久治不愈、屢曝安全漏洞，用戶信息如何守護？

深圳地下交通「最強大腦」背後：商湯科技五年半虧了近五百億

第一批搶跑的人，用AI搞了上千萬？

AI 幽靈，「刺殺」小說家

我用ChatGPT做了一下姜萍的數學競賽題，它懵了，我也懵了！

蘋果的大模型衝刺：沒有 AI 新產品，只有新功能

大模型軍備競賽遠未結束，但已註定成為少數人的遊戲

為了0.0003元，阿里和位元組槓上了

Kimi掙錢的樣子好抽象！

降價會是位元組AI的出路嗎？

別再狂吹GPT-4o了！不要只顧著漲他人威風、滅自己志氣

月之暗面撞上算力牆？

小紅書的大模型有點慫

三天暴漲一倍，商湯翻身還是泡沫？

巴菲特：我對AI一無所知

阿里想藉助AI電商反殺拼多多？

苦苦掙扎的周鴻禕，搖擺不定的360

湯曉鷗，倒在了商湯最難的時候

AI 製作的成人電影，為什麼這麼多人在看？

被冤枉的李開復，被「錯付」的中國開源

營收下降，利潤下滑！聯想梭哈大模型？

我找兩個熱門行業問現在AI如何取代人，結果被潑了冷水