原創 | 時代財經
作者:徐曉倩
圖源:pixabay
今年上半年,一線城市的科技圈被人工智慧激活了。
文心一言、通義千問、光年之外等大模型一波接著一波地輸送熱度,手握頂級資源的大佬們站在這場盛會的核心地帶,他們相繼發出英雄帖,有關大模型人才的爭奪也擺上了牌桌。
作為與AI產業鏈緊密相扣的一環,距離北京500公里的山西太原數據產業基地卻波瀾不驚,這裡聚集了上千名人工智慧標註師。他們談論的話題停留在項目進度、拉框達標率和一日三餐。
「熱鬧是他們的,我們只有數不盡的拉框。」一位數據標註師向時代財經說道。
在數據標註公司老闆何晴記憶里,熱鬧發生在四五年前。人工智慧的春風第一次刮向這個中西部城市,敏感的商人開始劃地盤、招人,向人工智慧源源不斷地提供「養料」。他們大多是人工智慧的門外漢,因為突如其來的龐大用工需求,與前沿科技產生了奇妙的聯結。
「當時很多老闆把自家人全都拉過來,隨便動動手指都能賺到錢。」何晴聽說過數據標註行業內不少振奮人心的消息——有人在三個月內收入百萬,也有人搶到的訂單能排到第二年。
但這樣的好日子正在逐漸遠去。
體面的「流水線」
上午8點45分,黑壓壓的人流堵在了電梯口,只有三分之一的人擠上了第一趟電梯,所有人最終的目的地都在6樓。
電梯門緩緩打開,人群一下子向四面八方散開,走進一個個看不出任何差別的辦公室——100平米左右的空間擺滿了上百台電腦,主機、滑鼠、鍵盤線密密麻麻纏繞在員工腳邊。
「只要順著門牌號,一家家問過去,全是做數據標註的。」園區內底樓的商販如此形容道。
這座吸納近千人的數據標註基地像是藏在園區內的隱秘網吧,坐在電腦前的人熟練地點擊著鍵盤和滑鼠,一平方米左右的桌子被體積龐大的電腦霸占。
正在工作中的數據標註師 圖源:時代財經攝
唯一能彰顯個性的,是戴在頭上五彩繽紛的耳機,他們有著一個共同的身份:數據標註師。
滑鼠在左右鍵來回敲擊,螢幕上的圖片跟著放大縮小,光標飛快地描繪出一個個大小不同的框框……重複的動作持續半小時後,美玲稍稍扭了一下脖子,脊椎處的骨頭髮出咯吱咯吱的聲音。
「新人熬過第一周就行了,做熟練了上手很快。」美玲一邊仍繼續盯著螢幕,一邊對時代財經說道,第一周就放棄的人高達30%。
每隔兩周,領班周姐就會帶著十幾個新人開啟學徒生涯,這樣重複無聊的工作勸退了不少年輕人。
兩年前,美玲從幼師轉型成了一名數據標註師。她的老家——呂梁的工作崗位很少,電話銷售是其中一個比較體面的歸宿,如今在人工智慧浪潮的影響下,數據標註師為縣城女性提供了另一種選擇。
半年前,由於標註基地的變動,美玲從老家來到了省會太原。「自動駕駛、人臉識別哪一個不需要大規模標註員的參與。」她流露出驕傲的神情,在家裡人看來,坐在辦公室操作電腦、月收入超過3000元,待遇已經超過縣城大多數工作了。
2005年,計算機視覺專家朱松純從美國回到故鄉湖北鄂州,創辦了蓮花山研究院,並由此組建了中國最早的大數據標註團隊。隨後,數據標註廠逐漸在二三線城市生根,河北、河南、山東、山西等地區出現產業集群地。
通過重複的標籤訓練,讓人工智慧走到「覺醒」時刻,在美玲看來,這和之前的幼師工作一樣。
數據標註是人工智慧產品誕生的第一個環節,接下來,還要經歷模型訓練與優化、模型管理、推理應用等。喂養人工智慧產品需要數以億計的數據,這些數據會最先流向「美玲們」的電腦。
不過,美玲對「高科技」的幻想,在重複機械的滑鼠聲中一點點被打碎。她測算過,1500個框是每天工作量的極限,一旦越過這條警戒線,眼球就會一陣陣酸痛。
下班後,即便對著電視機,她看到的也是一片斑駁的馬賽克,像極了一張張放大後需要標註的模糊圖片。
「隔壁座位上總是陌生的面孔,同事之間很少交流。」工作了一年半後,在同一基地上班的吳霞還沒有習慣辦公室的沉默。
大專畢業後,原本她跟著同學一起進廠,後來因為項目變動、同學離職,她成了「獨行俠」。工作一開始,辦公室就變成了自動化流水線啟動的「車間」,冷冰冰的工業化氣息,沒有多少人情味。
單獨計件、不需要團隊協作是數據標註行業的特性之一,由此形成不同於普通白領的管理方式。
在這裡,標註師沒有固定的工位,而是根據項目變動隨機分配幾百號人的流向。最長的項目2-3個月,短期項目只有2-3天,十幾個人的項目小組設置一個管理員,時刻緊盯每個人的工作進度。
標註師也不會把精力用於經營同事關係,計件工種講究效率和專注度,時間和金錢掛鉤,要完成平均標準的1000個框,意味著平均每分鐘要完成2個框。
「跟別人說話的間隙,就會少賺好幾框的錢。」美玲說道。
富士康工人流向標註廠
在數據標註園區內,還零散分布著技術研究院和留學生創業基地。在孟然看來,這些「高端」崗位都離他很遙遠。
上大學前,他沒有離開過老家臨汾,大學畢業後,家裡人希望他不要離開本省。基地兩公里以外,是富士康太原科技工業園。這個廠區吸納了當地最活躍的用工人群,巔峰時期,有近6萬人活動在廠區的流水線上。
不管如何折騰,大學生孟然的求職流動半徑從沒超過5公里。他曾經從數據標註基地二期搬到三期;在正式成為數據標註師之前,隔壁的富士康曾是他燃燒青春的地方。
距離數據標註基地不到2公里的富士康園區 圖源:時代財經攝
孟然曾經連續兩個假期進廠賺錢,每次在拿到一筆大幾千元的報酬後,便匆匆離開。
每到寒暑假,富士康園區門口都站滿了拎著大包小包行李的大學生,所有人的目標都指向了全年最高的返費和小時費。「大家都是過來賺快錢的,旺季一過就打包走人,工廠忙起來太辛苦了,很難長期堅持幹下去。」
孟然不喜歡富士康的工作氛圍。進入車間前,要把電子設備上交,每天面對的的只剩下著裝相似的趕工人潮和蕭瑟冷峻的廠房。當遇到脾氣暴躁的班組長時,每天受到劈頭蓋臉的謾罵也是家常便飯。
伴隨著生產線啟動的轟鳴聲,工人需要不停安裝某個零件,這樣的動作往往要持續10個小時以上。在完全封閉的空間內,連出神都是奢侈的事情。等到領班稍微放鬆管理,孟然才敢和身邊的工友聊上幾句話。
2018年,在旁邊的數據標註基地落成後,孟然的工作有了第二種選擇。僅僅在只隔了一條街的距離外,就有一個更舒適的工作唾手可得。
王菲曾是富士康的招聘專員。工廠淡旺季和人員變動,加上模糊的返費報酬和經常變卦的收入,讓她經常陷入和打工者的無止盡拉扯中,標註師對她來說是更好的選擇。
「前幾年數據標註門檻低、單價高,每個月能保持4000元收入,而且做的項目都是大廠有關的業務,比較有保障。」王菲見過有不少熟練工離開基地另謀出路,但又兜兜轉轉回來的。
不少標註師有著和孟然相似的工作軌跡,電子廠的工作經歷是他們簡歷的共同點,數據標註工廠成為他們離開電子代工廠的下一站。
用工數量大、收入可觀、操作簡單的共同點,無形中搭起了一座兩公里的天橋,將兩座超級工廠連接在了一起。
消失的項目和公司
對於標註師來說,一個直觀的感受是:好日子快到頭了。
單價幾毛錢的項目不見了,一個標註框的價格卷到了幾分錢;簡單的平面描點拉框消失了,取而代之的是需要多維度標註的點雲項目;正式員工逐漸從項目組離開,性價比更高的實習生撐起了一半以上的用工量。
數據標註公司老闆何晴長達半年沒有來過基地,她逐步減少了對公司的投入。
去年下半年開始,她的團隊再也沒能接到客單價高的項目,客戶帳期也從三個月拖到了半年。「很多現金流不夠、不具備墊資能力的小廠倒閉了,我們的團隊成員也少了三分之一。」
三年前,標註框一度點燃了李薇的熱情,慢熱、不擅長溝通的她感覺自己找到了「天選」工作。
李薇接過單價為0.25元的項目,效率高的時候,她一天能拉框1200個,一個月賺近8000元,「為了能多賺一些錢,有人買來主機在家開工,任何人只要做得熟練了,都會收入變多」。
和其他人一樣,李薇隱隱覺得淘金時代結束了。
公司啟動了全新的項目,呈現在眼前的不再是真實世界的路況圖,而是由成千上萬個綠色的、紫色的、藍色的點構成的模型圖,一張完工的圖片中包括近百個標註框,而一整套題又是由幾十張只有細微差別的圖片構成的。
複雜的操作介面 圖源:受訪者提供
「需要反覆在平面圖和3D切換,一些被遮擋住的畫面得靠腦補,邊框精確度也要求控制在0.01米,工作性價比越來越低了。」只要與要求的範圍偏差多出1毫米,就會被審核無情地打回去。
數據、算力、算法是人工智慧的三大基石,數量越多、質量越高的數據,往往能夠訓練出更加成熟的大模型,表現在標註師的工作上就是不斷被拔高的精確度。
「這幾天又在調整規則,精確度要求提高到80%以上。」精確度成了標註師的「死穴」,也是他們抱怨時出現的高頻詞彙。
一張標註完成的圖片還要經過審核、質檢等2-3個環節,否則不能進入結算周期。
有時候,吳霞感覺自己像被困在複雜的迷宮裡,怎麼都出不去。她曾被一個新項目磨了近一周——一邊上交題目,一邊被不斷打回,這讓她陷入焦慮。「如果題目被打回的頻次太多,就會被分配給其他人,前面的精力全白費。」
孟然的焦慮則是另一種。從去年8月開始,他的工作變得清閒起來,過去5分鐘內積壓上萬的數據量,現在半個小時也不會有負載紅線。
「可能是平台數據量變少了,也有可能是機器審閱的效率提高了。」孟然的不安全感很快得到了印證,由於工作量被迫減少,他每天的收入從一兩百元降到了幾十元。
一場淘汰賽在各大代理商中蔓延開來。孟然見過有團隊一夜之間解散,十幾名被拖欠薪資的員工把公司告到勞動局;情況稍微好一點的,會連同電腦和員工轉讓給下一個代理商。
「保險起見,還是要去人員規模超過30人的團隊。」這是孟然給新人的忠告。
標註師正退出歷史舞台
熬過了一周的培訓期、挺過了半個月的生手期,今年5月,身在湖南的曉婷終於適應數據標註師身份,卻見證了公司的快速下墜、直至消亡。
「入職一個月,公司就撐不下去了,老闆請大家吃了散夥飯,但工資還要等幾個月再發。」在曉婷看來,當前數據標註行業遍布「地雷」,風險遠大於收益。
無論是數據標註的創業者,還是數以萬計的標註師,都無法迴避一個事實:在大模型施展拳腳的舞台上,人工數據標註逐漸無足輕重。
和美玲想像的幼師工作不一樣的是:學生不會那麼快搶走老師的工作。如今,被標註師哺育起來的大模型技術正迅速反哺數據標註流程。
以特斯拉為例,其自2018年以來不斷發展自動標註技術,從2D人工標註轉為4D空間自動標註。技術的進步,吞噬了人工標註的操作空間,2021年特斯拉人工標註團隊超過1000人,2022年則裁員超過200人。
其他車企公司包括小鵬汽車和毫末智行也紛紛推出自動標註工具。毫末智行CEO顧維灝公開表示,目前獲取車道線、交通參與者和紅綠燈信息,人工標註成本約每張圖5元,而毫末DriveGPT的成本僅為0.5元。
2019年,在一線城市從事AI數據訓練師吳迪便預感到自己職業生涯的天花板,他所在公司負責研發電商平台智能客服項目。比他設想的進度更快,不到一年,他負責的數據標註10人團隊便被全部砍掉,只保留了零星運營人員。
「項目不斷成熟的那天,就是我們不被需要的時候了。」
大模型的進化像是一條奔騰不息的河流,總在某一個瞬間奇襲,把人工團隊甩在身後。
在蘇黎世大學今年3月份的一份調查報告中,研究人員通過實測發現,ChatGPT在15項標註任務中的處理能力高於眾包人員。
今年4月初,在校醫學生李捷在一個月內完成了某大廠在醫藥領域的文本標註,該項目將用於提供智能診斷對話服務,這也讓李捷第一次感受到大模型進化的速度。
「一開始,我們不斷給平台投喂分類醫學名詞,到了第二周,系統就能自動實現基本的名詞分類了,而且正確率超過90%。」
在山西太原,基地領班周姐開始勸新人接手難度更高的項目,因為公司很難再承受項目一次次被擱置的壓力。「目前越簡單的標註業務利潤越薄,有的項目做到一半就黃了,人力成本完全覆蓋不了項目的收益」。
一位數據標註行業招聘人士告訴時代財經,今年以來,招聘門檻逐漸從專科生向本科生傾斜。「之前對標註師基本沒有經驗要求,現在很多公司都希望新員工可以直接上手做項目,這樣能減少前期的培訓成本。」
目前,智能標註能大致捕捉到物體的基本形狀和位置,但是在精準度上,仍然落後於專業的標註師。
沒有人知道智能標註會在什麼時候迎來大爆發,但一種不安全感始終伴隨著李薇。每當她打開新項目頁面,代表智能標註的紅框總是率先跳出來,仿佛無時不刻地提醒螢幕前的人:
終有一天,它會取代她的位置。
(文中受訪者皆為化名。)