單件3分錢,那些喂養大模型的人

2023-10-20     AI狐頭條

原標題:單件3分錢,那些喂養大模型的人

原創 | 市界

(頭圖為AI製圖)

乾了一天,就賺了路上的油錢

「人工智慧時代的賽博螺絲工」,凱凱這樣形容自己的數據標註員工作。

她在一家東北三線城市的小公司工作,這裡的工作環境還不錯:辦公地點在寫字樓里,有格子間工位和電腦,頗有「科技公司」的味道。入職時公司說,這份工作「沒有門檻」,她接的第一個項目,就是給自動駕駛的圖像「拉框」添加標註,其中有2D的街道圖,也有來自雷射雷達等的圖像,後者是三維的,由密集的「點」構成物體的集合,稱為3D點雲圖。

圖像標註的要求其實並不複雜:標註時要區分照片的顏色,或者對圖像中出現的人和物體進行分類。標註員按照輪廓拉方框來框出對象,並標註它們的各種屬性,比如這是汽車、這是雲朵、這是大樹等。

這聽起來很簡單,但凱凱認為,這也不是個輕鬆的活兒。圖像中的情況錯綜複雜,比如交通繁忙的路口,行人和車輛密密匝匝,看得人眼花繚亂;動態圖往往是連幀的,有變道的車會被物體遮擋,也需要標註員進行聯想,一個一個地找到、標註出來。

尤其是3D點雲,圖像是由一個個點組成的,邊緣上的物體很容易被漏掉。有的被擋住的車幾乎看不到,但大多數公司規定,只要超過10個點的物體,就必須畫框。數據標註的容錯率一般在95%以上,也就是說,一個標註員拉上100個框,至少有95個要是準確無誤的,否則就會被打回來返修。而在很多公司,正確率要求現在都達到了98%-99%。

分辨這些非常耗神,坐得時間久了,腰酸背痛不說,「費眼睛」更是所有人的抱怨。

一般人提到人工智慧(AI)從業者,腦海里最先浮現的往往是北上廣大廠里的程式設計師,他們做的是寫代碼、疊代算法等「高大上」的工作,月薪動輒上萬。但在金字塔底端的,卻是這些來自三四線城市的數據標註員們。

數據、算法、算力,是實現AI的三要素。為了讓AI能夠「睜開眼看世界」,數據標註是基礎的工作。數據標註員們將各種沒有固定格式、規則的非結構化數據,處理成AI能夠理解的特徵。這些需要處理的數據根據場景的不同,包括語音、文本、圖像、視頻等,對應著AI認知世界不同的能力。

像凱凱做的圖像標註,就是通過在圖上框出行人、汽車輪廓和標籤,注入AI訓練的模型,自動駕駛汽車才能識別出周邊的各種物體。「喂養」一個AI模型需要至少幾十億的數據樣本,這背後就需要標註員們靠著雙手一個個作出標註。

早在2015年左右,隨著第一波人工智慧浪潮的興起,國內數據標註行業也迎來發展。經過幾年的積累,在河南、山東、山西、河北、貴州、安徽等省份的三四線城市裡,已誕生了大量的數據標註員。

對於這些從業者的數量,目前還沒有權威的統計。在國內,AI數據服務商龍貓數據是知名的眾包平台之一,在其上已經擁有了超過500萬註冊用戶。如果說數據是AI金字塔的基石,那麼這批數量龐大的數據標註員們,就是搭建它的螞蟻雄兵。

這個群體目前以大專生、兼職的大學生、在家想賺些零花錢的寶媽們為主。他們一般在當地線下的數據標註公司和基地工作,或是通過線上眾包平台、社交工具上拉的標註群在線接活兒。

絕大多數標註員們的收費模式是計件。數據標註公司相對規範,會和標註員們簽訂合同,提供底薪,額外完成工作量公司會計件提成。在線上,有項目時,負責人會發布任務的內容、規範和報名的通知,給參與的標註員們計件付費。

一般公司提供的底薪在2000-4000元之間,但計件的單價並不高。前幾年還有幾毛錢,現在普遍已經降到了幾分錢。像凱凱拉一個框,2D的圖3分錢,3D的是5分錢。曾從事過這個行業的AIGC公司HEARD創始人蒙太奇估計了下,普通標註人員平均月薪,基本會在3000元左右。

曉妍是名機械專業的大學生,她在老家安徽的一家數據標註公司做了一段時間,底薪有3000元。她拿出刻苦學習的勁兒來,一天干滿8小時、每周單休,一個月下來拿到了3200元。

在三四線城市,曉妍這樣的收入還算可以了。「這比一般辦公室工作要累,但比純體力勞動還是要輕鬆的。」但她也特意強調,最好不要在線上做——在線上接活兒往往沒有底薪,項目也不穩定,達不到量的話,收入就會很低。一位湖南的標註員在社交平台上曬出了自己的結算單,一天內她拉了700多個框,一個單價4分錢,總共是30元零兩毛。「乾了一天,也就賺個路上的油錢。」

標註員做得熟練了,一小時也能拉上幾百個框。一般做到了3個月,公司就要開始向上加量。但返修也是家常便飯。比如凱凱一個標註車位的項目,線畫得長了、漏標了,質檢時每次總能挑出毛病,返修了四五次才改完一張圖。這也意味著,可能你花了一個小時的功夫,到手的只有幾毛錢。公司每次接的項目也不一樣,往往剛熟悉了一個,下一個就換了,規則和質檢要求也跟著改變,結合起不高的單價,就很容易讓人煩躁。

在相關貼吧里,不少公司貼出的招聘要求里都說,干這份工作「帶手來就行」。但換一個角度看,這也意味著,這份工作中沒有挑戰、沒有新鮮感。很多公司管理上也比較嚴格,不允許員工上班時接聽電話,手機要放到儲物格里。但在電腦前枯坐幾個小時,只有一遍遍的機械式畫線、拉框,這樣的重複性勞動往往會帶來精神上的疲憊感。在這種狀態下,標註員們就忍不住去思考,做這份工作帶來的價值和意義。「我覺得,我媽媽來也可以做。」有標註員曾吐槽說。

這也讓很多公司很難留住人,尤其是年輕人。凱凱認為,儘管和AI掛鉤,但這仍然還是個電子流水線式的工作,「沒有什麼前途」。曉妍也覺得,學生兼職還不如去做家教,「在這裡,你是大專、中專還是其他學歷,有什麼分別?」

她們在各自的公司都只做了不到兩個月,就決定不幹了。而這,也成為數據標註員們的常態。

每年都會看到大批公司倒閉

單價壓低的背後,曉妍說,是因為很多項目尤其是線上的,已經「不知道轉過幾手了」。這也和整個行業的商業模式與現狀息息相關。「做的人多了,現在已經太卷了。」

在2023年,大模型捲起了人工智慧的新浪潮。據天眼查信息,今年1月-10月,人工智慧行業新增了72.2萬家相關註冊企業。而市場對此的認知是:不管是什麼應用,只要是用到AI,就必然會對數據標註有需求。

資本的反應也說明了這一點。國內一二級市場上,相關公司在今年上半年都出現了一輪估值高漲。A股上的數據標註龍頭海天瑞聲,在春節後開市就迎來了一個漲停板。到了今年3月底,海天瑞聲股價漲幅超過300%。

但是,海天瑞聲股價飆升的同時,其盈利能力也在面臨挑戰。根據2023年上半年財報,公司營收7446萬元,較去年同期下降35.13%;凈利潤虧損1724.14萬元,扣非凈利潤虧損2310.46萬元,分別較去年同期減少了188.76%和380.40%。

在2018年完成Pre-A輪融資4年後,去年年底,自動標註公司星塵數據再度獲得5000萬元的A輪融資。今年上半年,凱望數據、整數智能、柏川數據、曼孚科技等相關公司都相繼拿到了融資。

新的中小團隊也不斷進入,試圖在這個市場中淘金。一家來自內蒙古的創業者去年也投身入這一領域,在當地,有數據基地提供辦公空間,也有政府的補貼和扶持,一年內,其團隊就擴張到了300人。

熱鬧的背後,如何拿到項目,成為小公司們必須要解決的首要問題。

數據標註行業基本採用的是分包模式,由甲方企業發標,其他數據服務商進行競標。各類科技企業、AI公司、車企等是甲方企業;處於中間位置的,是頭部數據服務平台以及大公司的數據標註服務部門,它們能夠獨立承接訂單,有的還有自己的數據標註基地;再下面就是星羅棋布的中小團隊,包括人數從幾十人到上百人不等的數據標註公司、3-5人的小作坊,還有線上的個體從業者。

數據標註仍然是個勞動密集型的行業,註定是低利潤的。「主要靠堆人工。」蒙太奇告訴「市界」,可以說是大部分的小公司支撐起了這個行業。由於進入壁壘不高,獲取客戶的能力是團隊立足的關鍵。但能夠獲得甲方尤其是大公司項目的,往往是業務能力夠強、對行業有足夠了解的服務商。之後,大部分項目還是會繼續向下分包到不同團隊手中。由於不少項目對團隊規模有要求,在眾包平台上,小團隊和個人組成了「公會」一起接單;掌握了渠道的中間商,則在其中賺取差價。

「知名的接單公司都在北上廣深,外包團隊在三四線城市。」一位從業者說。這種模式下,經歷了多級分包、層層抽傭,項目單價也被一路壓低。等到了接活兒的團隊手裡,往往單價也被壓到了只有幾毛錢。給普通數據標註員們的價格自然也就壓縮到了幾分錢。

對於中小團隊來說,訂單是不穩定的。「所有的項目都是周期制的,一個項目完成了,客戶那邊接不上,是常有的事;或者突然之間項目沒預算了,就不得不面對人員的變動;到最後,利潤極其微薄。」蒙太奇說。

大模型的熱度對行業本是利好,但也加劇了競爭。一位在今年入局的河南創業者感慨說:「這一行對於新入坑者並不友好。」

「現在價格被壓低,項目量也少了。」另一位河南數據標註公司創始人老張說。他已經從業5年,目前擁有50人左右的團隊,在這個行業里也算是久經風浪了。

「從我開始做,每年都會看到大批的同行業公司倒閉。」老張說。市場裡也存在不良競爭,「有人打壓價格,也有無良商家欺騙甲方。」他說,這是個最「磨鍊人心性」的行業。要想做下來,只能靠堅持。

但對於數據標註業來說,挑戰還剛剛開始。

他們的工作,將要被替代

大模型出現後,行業對從業者的要求,正在變得更高。

雲測數據總經理賈宇航告訴「市界」,對於行業大模型訓練,首先需要大量行業垂直數據去做預訓練,接下來則需要進行微調工作,例如需要大量的問答對數據(即包含大量問題和答案對的數據集),可以幫助大模型去做到進一步的優化、疊代,再去進一步適應其使用場景。當完成了微調之後,還需要進行評測和聯調。其中,數據標註的質量對於模型訓練就非常關鍵。甲方對於容錯率的要求,也比以往要更高。

最典型的變化就是,標註員不再沒有門檻了。

「對於從業人員,按照積累的程度和要求,是會逐漸地出現分層的。」賈宇航說,「像法律或者金融、醫療等行業,也將需要有一定的學歷背景或者從業經驗才行。」

一位外包領域的業內人士也表示,比如圖片類內容審核,要求標註員有中專、大專學歷即可;但文字審核相對來說,一般就會傾向於大專學歷;但到了更高難度的行業,比如說金融類數據的編輯、處理,以及一些英文文本的審核,可能就要本科學歷才能勝任。在大型的人力外包公司中,數據標註人員的在崗時間也延長了,可以做到3-5年。

今年8月,百度智能雲與海口市政府合作共建了國內首個大模型數據標註中心,其中擁有數百名專職大模型數據標註師,本科率已達到100%。

在網際網路招聘平台上,不少公司發布的對兼職數據標註員招聘信息中,也要求應聘者具有本科學歷,工作地點在一、二線城市,日薪在100-250元/天不等。

(招聘軟體上的部分數據標註員招聘信息截圖)

小型公司也感受到了行業的變化。「甲方提出的要求越來越高了,我們人員的技能也要提升。」老張說,「GPT大模型的數據標註,低於本科水平的人很難從事這一崗位。還有英文文本標註,需要對英語高級別的要求。」他的團隊成員中,目前最低學歷也是統招大專,覆蓋了文學、計算機等專業。「不能盲目招聘,重點要放在培養人上。」

第二個變化是,被人類標註出的數據訓練出來的AI應用,也逐漸應用到了數據標註場景。AI公司中,商湯科技宣稱已經在智能駕駛領域應用大模型自動標註技術;今年4月,海康威視在其財報會議上也提到將AI技術用於自動化標註,並稱標註數量能提升10倍。

訓練AI的數據標註員們,也在面臨一個迫在眉睫的問題:在未來,他們的工作,是否會終將被AI所代替?

前述外包領域業內人士提到,大模型應用後,大廠在數據標註外包方面的投量(投放的物料量/需要審核的原始數據)發生了變化,大約下降了40%-50%。但與此同時,「審核的難度也相對更高了」。

自動駕駛一直是數據標註的大頭。對於它所需要的圖像拉框等操作來說,目前的學歷和經驗要求還是比較寬鬆的。但這塊領域也在被大模型進占。

在今年4月的一次活動上,理想汽車創始人李想表示,過去公司一年要做大概1000萬幀的自動駕駛圖像人工標註,請了很多外包公司,一年的成本接近一個億。但是當理想使用軟體2.0的大模型時發現,應用其進行自動化標註,過去需要用一年做的事情基本上3個小時就能完成,效率是人的1000倍。

數據服務商們用自動化標註來替代人工,成為業界的關注重點。行業終將從勞動密集型向技術密集型轉化,已是共識。

在今年3月,星塵數據上線了自動化標註平台Rosetta3.0平台。發布時,星塵數據創始人、CEO章磊曾介紹說,新平台在自動化標註和數據閉環上成果顯著,數據處理準確度接近100%。

數據服務平台的服務模式也在進行升級,向著AI工程平台方向進化。今年9月,雲測數據在去年發布的「AI工程化數據解決方案」基礎上進行升級,發布了面向垂直行業大模型的AI數據解決方案,通過以集成數據底座為核心的數據標註平台,為行業大模型提供從持續預訓練、任務微調、評測聯調測試到應用發布的全流程數據服務,來滿足大模型疊代的數據需求。

賈宇航表示,雲測數據主要滿足行業場景化需求,主要聚焦在自動駕駛、智能AIOT、智慧金融和智慧城市這四個行業。「對行業作出預判,快速適應算法的成長,做好積累和研發;同時關注成本效率,提升準確率的同時,做到成本合理,就能為企業建立壁壘。」

同時他也認為,對於人工標註的需求並不會消失。「隨著人工智慧行業的發展,人工標註的數據量還會持續增長,是離不開人工的,人力未來還將更多地參與到算法校驗的環節中去。」賈宇航預測,「未來可能會逐漸演化成為人工標註、自動標註以及自動標註之後的人工審核三部分。」

但粗放式的小公司、小作坊們的淘汰賽已然開始。「現在的趨勢是自動化和半自動化,行業不會有太多機會了。」蒙太奇說。他認為,對於數據標註員來說,及時轉型成為大模型的Prompt工程師(提示詞工程師),也是一個方向。

老張也對行業進行了思考。大廠在近年來紛紛自建基地,老張說,對行業中的公司也肯定是有影響的。「但實際上,建基地的費用比起外包來,應該也會更高。」他認為,只有建立良性的管理運營體系,培養和留住員工、爭取更多的AI公司項目,才是生存下去的方向。他為公司制定了崗位規章制度和新人培訓流程,並且決定全員持股分紅。「甲方項目我們不外包,也不採用市面上常見的計件方式。有些項目價格低,公司寧願原價+補貼給到員工。」

「自動化標註代替人工的時代,是早晚要到來的。沒有一個行業會免於受到科技帶來的衝擊。我們現在要做的,就是努力為接下來的衝擊做好準備。」他說,「談夢想之前,首先要活下來。」

(凱凱、曉妍為化名)

作者 | 楊 潔

編輯 | 孫春芳

運營 | 劉 珊

文章來源: https://twgreatdaily.com/zh-hk/89ee8c8cba0c5a1460882f6383e1ef3a.html