AI標註公司生態調查:一半本科生、寶媽最好用

2023-09-08     娛樂資本論

原標題:AI標註公司生態調查:一半本科生、寶媽最好用

作者|付夢珍

「貧困山村裡,沒上過大學的女人們在喂養AI。」

「富士康工人流向AI標註廠。」

「跟AI打工,貧困縣也能月薪7000。」

在「有多少智能,就有多少人工」的AI時代,有一批人通過採集現實世界的圖像、視頻、文字等信息,清洗標註後將數據轉化為代碼輸送給機器,從事這份工作的人叫做數據標註員。

打開關於AI數據標註行業的新聞,我們隨處可見上述標題。低門檻、勞動密集、高度程式化、標準操作流水線,成為了數據標註工人身上最大的標籤特徵。而在國際上,因為有大量的非洲肯亞人在做相關工作,他們又有一個灰色暱稱,「肯亞人」。

而這,也與數據公司的甲方——百度、阿里等,致力於要用技術改變世界的大公司們形成了鮮明的對比。大洋彼岸,數據標註服務公司Scale AI市值73億美元,彰顯了數據公司的資本潛力,也讓我們看到了數據公司走向百億美金估值的可能性。

隨著AIGC時代的到來,數據標註員的工作有何改變?上述新聞標籤是否是他們的行業常態?數據標註行業現在存在哪些問題?未來又有哪些發展前景?更重要的是,他們展現了AI行業背後的什麼樣的困難?

帶著這些問題,娛樂資本論走進了四家數據標註公司,發現了如下的行業現狀:

VOL.1.標註行業對員工的素質要求越來越高,本科生占比高

VOL.2.兼職的標註人員中寶媽較穩定,更受歡迎

VOL.3.垂類行業的數據標註訂單增多,對垂類標註人才的需求量增多

VOL.4.底層數據標註員的工資與最低工資標準類似

VOL.5.AI只帶來了短期的訂單增加,小型數據標註公司很卷

VOL.6.多數數據標註公司沒有構建自己的數據壁壘

VOL.7.數據公司的發展趨勢:、利用AI技術降本增效 、專注於某一垂類的數據 、往產業鏈上遊走,做數據採集、合成等

本科生越來越多,寶媽更受喜愛,監獄不方便

「我們不是富士康的流水線模式。」

當被問及公司的員工現狀時,幾家數據公司都給出了類似的回答。

龍貓數據成立於2014年,累計服務了60餘家主機廠和自動駕駛公司,為客戶提供整體的數據解決方案。

今年AIGC爆火後,龍貓接到了很多圖文標註、視頻標註需求的訂單,會有很多多模態應用場景,比如車內座艙的文娛軟體等。龍貓副總裁胡邱飛向娛樂資本論指出「這要求標註人員能理解大模型的應用,而大模型會考察幾乎所有領域的通識類知識。此外,標註內容要和客戶的模型價值儘量貼近。所以這也要求我們找的標註人員絕大多數學歷在本科以上。」

龍貓公司一角

針對垂直領域,龍貓則會配備專業領域人員,比如為數學相關大模型招聘會高等數學的人,「如果不是這專業的人,你根本看不出細節上的區別。」

成都的匯眾天智總經理駱靖元也在AIGC浪潮後提高了對員工的素質要求,「三四年前對員工的素質要求還不高,但是現在甲方對質量和效率的要求提高了。公司之前90%是大專,現在本科占到了一半,甚至有研究生。」

2018年,做軟體的丁一峻,在朋友的引薦下接到了阿里數據標註的訂單,2019年創立了飛火大數據公司。之後,出於成本考慮丁一峻回到家鄉創業做數據標註公司,「那時的數據標註行業確實能提供大量就業,洛陽數據局2019年的時候也牽頭想做數據處理公司,招人好招,但交付難。」

2019年做百度某數據標註業務項目截圖

「數據標註本質是高級搬磚。」丁一峻向娛樂資本論指出,「有標註需求的多是大公司,現在很多標註公司會外放做不過來的訂單,這就讓市面上很多沒跟甲方深度捆綁的公司,接的訂單都特零碎。這種訂單一是邊緣化業務,比如小語種。二是時間周期短的業務,很考驗外部公司的交付能力。」

這兩類訂單,也倒逼著丁一峻要提高對員工素質的要求。這期間,丁一峻嘗試過和學校監獄合作,相繼作罷,「學校要考慮領導、輔導員各種利益分配,監獄對網絡要求高,不如找全職。」

飛火大數據公司一角

綜合原因下,大部分的數據公司更傾向於招聘兼職人員。瀋陽正午數據公司人事小蘇接受河豚君採訪的前一天,剛在Boss直聘上發了招聘兼職的通知,「行業本身利潤有限,全職成本太高了,根本就不能實現。」

「我們招人基本要求大專以上,發了以後有上百人聯繫我,但是很多人沒經驗。」小蘇招聘時,會和兼職強調對數據保密性的要求,「不知道是不是受網絡的影響,很多人戒備心很重,聽到要保密就不做了。但我們公司有良心,必須強調保密。」

杭州景聯文是一家從事數據採集標註、數據融合挖掘的公司,現有1000多位全職標註人員,其CEO劉雲濤向河豚君透露,「標註項目難度越來越高,要求標註員的學歷和專業知識水平越來越高,比如語言標註團隊,要求會各種小語種。醫療標註,需要醫學院畢業的學生。」

龍貓則是全職兼職兩手抓。胡邱飛透露,「我們現在線上註冊用戶400多萬,活躍全職的1萬人左右。」線上之外,龍貓在西南地區做了線下標註基地,「那邊高校多,學生素質也更高,員工500人左右。」

龍貓的全職運營會了解兼職的情況,「我們更喜歡用沒有全職工作的群體,比如寶媽,她們時間充沛,更好管理,也更穩定。」

整體來說,如今數據行業的標註人員發展如同美團般發展成了全職、服務站、眾包等階梯式的人力模式。胡邱飛透露,「我們線上眾包是強管控,最終交付結果都是計件的。」

小蘇介紹,目前公司兼職的員工大概兩三千,常駐人員1000左右,流失率一半。丁一峻透露,「基礎的標註員往往都是屬於地方上的最低工資標準,三線城市兩三千左右,質檢員和項目經理,能到七千左右。」

層層外包下,標註公司活少錢少風險高

「太卷了。」

這幾乎是數據公司們共同的心聲。

「我們現在就像河南的食品代加工廠一樣,品牌是別人的,工作相當於幫別人養孩子。」丁一峻的公司高峰時有兩三百人,現在公司只有40多位員工,「老客戶的需求還在,能維持正常運營,但這種單子很雞肋,一個月幾百幾千跟辦公室採購差不多,利潤太低,項目體量也不穩定。數據行業缺乏像蘋果、特斯拉一樣需求穩定的工廠。不然我也不想裁人,有活還需要找外包。」

駱靖元指出,AIGC爆火後自己招人和以前相比省去了科普人工智慧的環節,但在接活上更卷了,「大公司有定期篩選的機制,比如說這批我需要10家公司。那我就從100個裡面篩選,其中哪兩三個不合適,我再動態替換。這使得一些公司不斷報低價,惡性循環。」

為了接到訂單,丁一峻一直在努力降本增效,「為了提高效率,我們開發了AI工具,之前2D拉框要8分一個,現在降到了5、6分,操作更便捷。質量上,如果客戶不想要目標物低於某像素值的,工具直接調數值,標註員就不用標了。」

但是這種工具標註公司基本只能自用,「同行有能力買的,自己有開發的實力。沒開發實力的,出不起這個錢。」說著,丁一峻給我發來了網上開源的標註工具,「每家平台都差不多,都是基於labelme的底層邏輯。早幾年能打個信息差,賣平台賺點錢,現在不行了,大家都知道套路,直接上源碼加個UI就成產品了。」

某標註工具圖

「今年2月GPT剛火的時候訂單多了一些,那時大公司的目的更多是為了割韭菜炒股價。後來這些AI大公司發現變現難,七八月份就很少在數據標註上投入了。」保定的數據標註老闆周三體說,標註公司遇到的困難,仿佛也印證了AI潮冷去的某種現實,「AI公司的客戶很多還是G端,根本不在乎AI能力,更在意能不能喝酒、能不能墊資」。

為了接活,周三體努力降低成本,「2D拉框最早是1毛5一個,現在降到了8、9分一個框。」

景聯文在努力將非標準化產品標準化,現在將2D拉框標註項目的成本降低了50%。

打開天眼查搜索數據標註公司,我們也能發現大部分的公司經營所在地都在河北、山東、河南等人口大省,這與當地勞動力密集且廉價息息相關。「大廠會把業務承包給有資歷和實力的公司,這種公司再外包,到我們價格很低了,還需要墊款,壓力很大。」周三體說時嘆了口氣。

回憶起2017年創業的日子,駱靖元說那時借著自動駕駛行情數據行業很火,訂單像雨後春筍一樣地湧現,「像百度做了語音採集,高德、訊飛會再做一遍。算法都沒變,標註都是新瓶裝舊酒,同樣一批人臉識別的圖片,A公司做完B公司做,之後C公司再做,我們始終是在給別人做嫁衣。」但這樣的日子也好景不長,如今訂單量變少,「人員迅速增加後又會有斷檔期,大部分公司死在了斷檔期里。」

被問及是否覺得公司的運營模式是新時代的數據工廠時,丁一峻認為,「AI的產品線不像工廠那麼完善,缺乏法律和社會面的支持,比如版權、數據安全。」

丁一峻曾承接過一家證券公司的標註工作,「剛好有一家標註員是這家證券公司的用戶,他提出了抗議,後來私下花錢和解了。誰採集數據,出了問題誰負責,所以一般我們也不會過問數據來源情況。」

技術壁壘低、政策法規不健全、訂單量少且不穩定,數據行業面臨著多種困境,這也逼著其從業者尋找新的轉型發展之路。

被AI代替?還是用AI起飛?

為了降本增效,龍貓研究了AI加持下的數據標註管理系統,「自動駕駛上節省了40%,AIGC在探索引入GPT等大語言模型校準標註結果。作為機器和人的交叉驗證,保證輸出的一個質量。因為人會有波動,機器更加穩定,偏差小。」

此外,龍貓在嘗試通過AI技術省去標註環節,直接進入到審核和質檢環節。

高質量語料,尤其是私域數據,是做好數據標註的關鍵,AI在仿寫改寫上的潛力,讓人看到了其在合成語料上的潛力。「根據最新的生成式AI管理辦法,用戶擁有自己5張照片的版權,但5張照片合成後生成的數據版權屬於合成方。」胡邱飛據此出發,在探索數據擬合向業務,目的在於擁有數據的所有權,標註後多次復售數據包。

AI創業者周曉明指出,「AIGC賦能合成數據,能夠解決真實數據獲取難、獲取成本高、多樣性不足、缺乏隱私保護等痛點問題,替代真實是大勢所趨。」

對此,丁一峻則未敢嘗試,「AIGC合成數據需要看政策,現在是灰色地帶,好不好獲取,就看膽子大不大了。誰也不知道未來會不會出爆款,有比擬真實數據的內容出現。」

此外,龍貓也在探索獲取高質量數據的新方式,打造公司壁壘,胡邱飛說,「國外出現的一種趨勢是用戶主動售賣自己的數據,讓數據公司得以繞開原始數據的廠商壟斷的局面。我們也在想,怎麼讓那些有時間、素質又高的人做數據輸出和標註,比如說通過做題的方式,讓他們小程序上答題賺錢。」

「數據標註是自我淘汰的行業,AI可以通過模型優化做部分標註工作。發展到最後,這個行業可能只會剩下質檢員這些崗位。」丁一峻為了應對變化,將公司從洛陽搬到了工業配套更完善的蘇州,做數據採集車業務,「我們要給甲方提供硬體採購和數據服務的整套方案,這樣甲方對我們的依賴度才能更深。」

AI作圖 by娛樂資本論

景聯文則選擇了深耕垂類賽道,專注於教育和醫療領域,劉雲濤透露,「教育方面,我們手上有3億道從小學到職業教育的題,格式統一,解析維度包括專題分類、分析過程、考點解析、解答過程、教師點評等。現在大模型號稱百模大戰,至少有60家都要買我們的題庫。」

醫療方面,景聯文積累了400TB的醫學資料資料庫和三甲醫院的專家的病理數據。「我們兩年前開始拓展標註場景,選了醫療賽道,不管經濟多不景氣,醫療始終有存在的意義和價值。」

值得一提的是,龍貓AIGC業務線負責人李亞向娛樂資本論透露,龍貓正在打造自己的垂類大模型,「大模型一是做輔助標註,讀懂題目後給答案讓人選。第二是做全自動標註,AI直接出結果。這種情況我們會做雙盲的實驗,比如一個答案用三個標準做一遍,裡面我們會拆一個一個人或者兩個人用這種形式做,這樣不需要再做抽檢和質檢,有些項目我們已經用GPT交付了,準確率方面達到了80%多,與人工接近。」

對市場規範化的呼籲,成為了不少數據標註從業者的心聲,劉雲濤指出,「未來,怎麼讓數據流通合規化、安全化是很大的問題。現在很多城市在建立大數據交易中心,是積極的信號。」

艾瑞數據的人工智慧數據報告指出,三年後,中國人工智慧的數據治理市場規模預計將突破百億。

但更現實的問題是,吐槽中文語料庫差的新聞屢見報端,大量的中小型數據標註公司正在卷生卷死,大批數據標註公司的業務產品,在批量化、利潤率、風險性方面甚至不及富士康產品,映照到市場上的,則是逐漸遇冷的大模型市場以及越來越像「高科技施工隊」的中國AI商業環境。

當我們試圖尋找解決之道時,駱靖元回憶其工作多年感受時的話也許是最好的答案,「對我們同事來說,當看到應用落地的時候,還是比較欣慰的事情。雖然工資低,但終歸是做了點有用的事情。」

「數據是AI走向智能的基礎,少開點發布會炒股價,多投點錢在標註上才是正事。」採訪接近尾聲時,周三體發來了這句話。

文章來源: https://twgreatdaily.com/zh-sg/6dd2f3aa8986ee730b5daf2c16f5f57a.html