垂直行業大模型「封神」背後,AI數據服務走入「深水區」

2023-09-26     智能相對論

原標題:垂直行業大模型「封神」背後,AI數據服務走入「深水區」

圖源:Unsplash

文 | 智能相對論

作者 | 沈浪

由ChatGPT掀起的這股大模型浪潮,從通用領域席捲垂直領域。現階段,越來越多的行業都在開發專用垂直細分賽道的大模型產品,以加速AI應用的場景化落地進程。

譬如,在電商領域,平台和商家正在利用大模型重塑各個零售環節。如智能導購,可基於消費者的海量消費數據為其提供商品推薦、商品挑選攻略、行程建議等。同時,大模型還能理解海量商品的詳情數據,快速生成電商運營需要的商品主圖、營銷海報、詳情頁等等。

除此之外,電商垂類大模型在智能客服、供應鏈優化等場景上也都能基於海量數據的深度學習,快速掌握特定的售前售後話術、供應鏈訂單處理等,全方位革新電商領域的零售模式和消費體驗。

隨著應用成果的落地,垂直行業大模型的價值正在釋放,數字生產力持續提升。而作為人工智慧三駕馬車之一的數據要素也在這個時刻被提上新的戰略高度——不難發現,垂直行業大模型的價值釋放離不開海量數據的支持。

對應的,上游的AI數據服務商已經針對數據層面提出了新的解決方案。在2023年中國國際服務貿易交易會期間,國內頭部AI數據服務廠商雲測數據在去年發布的「AI工程化的數據解決方案」基礎上全面升級,重點面向垂直行業大模型提出了全生命周期的AI數據解決方案,為大模型應用落地提供關鍵支撐。

以大模型應用為支點,在大量市場場景需求的撬動下,人工智慧產業鏈上下游的板塊正在迎來全新變革,數據層面的升級已經躍然紙上。

大模型應用「封神」的背後,是什麼樣的AI數據服務在支持?

大模型的爆發加速了人工智慧的應用進程,同時也對整個算法產業鏈帶來了新的挑戰。在數據層面,過去生產數據、收集數據、加工數據、存儲數據等流程就不再適用當前的市場需求,或者說無法高效地、很好地解決新出現的問題。

下游的AI應用融入大模型技術進行全新升級,上游的AI數據服務也同樣面臨著變革。那麼,什麼樣的AI數據服務才是垂直行業大模型場景下需要的、適用的?

一、標準化

垂直行業大模型技術成果湧現的背後,對應是AI數據需求大幅增長。如何滿足大幅增長的場景化數據需求,首要不是盲目擴大數據生產,而是提高AI數據的通用性、易用性,也就是標準化的問題,避免AI數據服務做「無用功」,保證數據的真實、有效、易用是滿足垂直行業大模型爆髮式增長需求的關鍵。

譬如,在智能網聯汽車行業,《智能網聯汽車雷射雷達點雲數據標註要求及方法》(T/CSAE 213-2021)、《智能網聯汽車場景數據圖像標註要求與方法》(T/CSAE 212-2021)等團體標準的發布,就為智能網聯汽車的研發和測試提供了一套切實可行的場景數據點雲標註方法,很好地推動了智能網聯汽車的研發和測試。

其中最直觀的感受則在於,過去AI數據服務行業各企業對圖像標註的要求與方法都各不相同,標註結果文件各異,嚴重影響後續數據的統一使用。隨著相關標準的發布,對標註流程和標註結果的保存形式都進行了規範,進而提升標註數據的通用性。

而在這個過程中,行業TOP地位的廠商往往都是標準的引領者,促使其在接下來的市場規範中獲得了更大的話語權和主動權。譬如,以上智能網聯汽車場景數據的兩大標準,背後都有雲測數據的參與。

這家頭部AI數據服務商在參與標準制定,為行業攻陷自家經驗和技術能力的同時,也更快、更好地掌握了數據標註相關場景的標準化,並應用到自家的產品和解決方案中。其中,基於對行業標準化的理解,雲測數據發布的面向垂直行業大模型AI數據解決方案不僅能提供大規模感知數據能力,還能智駕企業減少數據採集周期,提升數據標註效率,降本增效,助力相關企業在數據層面實現研發領跑。

二、工程化

隨著大模型技術的融入,人工智慧應用進程正持續加速,而在供給端,AI數據服務也面臨著數據生產、收集、處理、加工、存儲等全生命周期流程的升級,從而才能滿足AI數據的大幅度增長需求。簡單來說,對應AI工程化的大趨勢,AI數據服務也迎來了工程化的深度升級。

這裡,雲測數據發布的「面向垂直行業大模型AI數據解決方案」呈現出來的結果就是一條相對清晰的路徑——通過豐富的數據標註工具、成熟的API集成能力、高效的數據閉環,加上人員管理及項目管理體系以及安全交付軟硬體支持的方式,雲測數據在保證數據隱私安全的環境下,對垂直行業大模型所需的海量數據實現了全生命周期管理。

更直觀來說,對應AI數據服務的各個流程環節,雲測數據都能提供對應的工具、技術能力、管理體系,好似成熟的製造生產線一般,一步步地完成數據從無到有的生產,從粗糙到精細的加工等目標,以供下游的垂直行業大模型用於預訓練。

以基礎的數據標註為例,雲測數據目前提供了相對全面的平台工具模塊,包括了點雲融合跟蹤、OCR文字轉寫、視頻標註、語音轉寫、語音切割、文本判斷、文本生成等等,充分滿足行業垂直大模型的多模態數據標註需求。

三、場景化

今年以來,市場的焦點從通用大模型轉向了垂直行業大模型,其背後是對技術應用落地的追求,同時也釋放了一個足以撬動整條人工智慧產業鏈的趨勢——場景化。在AI數據服務領域,廠商不再盲目追求廣泛的海量數據,而是針對某一特定領域或場景的有效數據。

場景的聚焦是加速垂直行業大模型落地的關鍵,同時也意味著更高要求的AI數據服務。以智能網聯汽車為例,雲測數據為其提供的AI數據解決方案目前就包括三部分,分別為基礎資料庫、定製化數據採集和標註服務以及包括數據採集標註、數據管理的全方位數據工具鏈。

簡單來說,隨著場景化趨勢的發展,AI數據服務的定製化將越來越深入,不僅要針對某一特定行業或場景提供專業服務,還有可能聚焦某一公司或某一技術模塊提供高度定製化數據服務。

同時,基於場景化的AI數據需求也遠超常規,隨著行業大模型的持續升級,場景的細分也會越來越精細,對應的數據需求更加嚴格。在與「智能相對論」的交流中,雲測數據總經理賈宇航就提到,在智能網聯汽車領域,為滿足相關場景的豐富性,雲測數據可以需要提供包含數據採集、數據生產、平台工具在內的AI數據服務,從而滿足相關大模型的預訓練需求。

總的來說,對應人工智慧產業鏈上下游的關係,AI數據服務需要服務於垂直行業大模型的需求。現階段,垂直行業大模型加速落地,需要更多、更有效、更精準的場景數據,AI數據服務的升級有跡可循。

AI數據服務走入「深水區」,頭部廠商如何繼續保持引領?

市場趨勢的變化往往最先被行業TOP廠商所感知和反饋。在AI數據服務領域,雲測數據提出「面向垂直行業大模型AI數據解決方案」,站在下半年垂直行業大模型進一步爆發的節點上將繼續引領AI數據服務行業。

那麼,只是純粹的進場快,就能實現行業引領嗎?顯然不是。

結合垂直行業大模型發展的市場需求,雲測數據的「面向垂直行業大模型AI數據解決方案」所呈現出來的更關鍵的價值在於其背後三大思維。

一、聚焦賽道,重視價值回歸

垂直行業大模型的爆髮式增長讓「百模大戰」愈演愈烈,各行各業都在做相應的大模型產品,呈現出來的市場機會很多,但是對應的AI數據服務需求也在升級。這就意味著不能用通用思維來做垂直行業大模型的AI數據服務,也很難有能力把所有行業都覆蓋。

那麼,在這個過程,廠商就需要有所取捨。目前,雲測數據「面向垂直行業大模型AI數據服務解決方案」主要落地在零售電商、金融保險、智能網聯汽車等領域。而這些都是雲測數據從創立之初就聚焦深耕的行業,具備相應的數據積累、行業知識、項目經驗以及客戶資源等。

在雲測數據總經理賈宇航看來,雲測數據做垂直行業大模型的AI數據服務,首要的關鍵點是價值考量。

一方面,要做就先做有積累、有基礎的領域——基於這個思路,雲測數據在提供場景化數據採集方案的同時,也會在微調任務後對應行業需求提供專業的評測體系和服務,讓AI數據服務更有價值。

另一方面,儘管垂直行業大模型很火,但商業化落地程度仍具有局限性。對於雲測數據而言,結合過去的服務經驗、項目經驗篩選有市場需求的領域深耕,是對企業自身發展的負責,避免在過熱的市場環境中迷失自我,失去發展價值。

二、縱橫升級,強化基本功

垂直行業大模型應用落地是一個縱橫能力協同的過程。雲測數據總經理賈宇航將這一過程理解為「搭積木」,橫向強化底座能力,有一個穩定的基礎,縱向深耕場景化,對應不同的行業進行微調、優化,給出專業的解決方案。

具體來看,雲測數據基於AI工程化的數據服務升級,在橫向上就構建了一套包括數據可視化、擴展工具模塊、數據權限管理體系等在內的AI數據服務解決方案,應對大模型預訓練本身所需要的數據需求。

縱向上則針對不同的場景,基於行業理解提供專精解決方案,比如對應智能網聯汽車研發與測試所需要的車外環境感知、車內智能座艙、人體動作識別等,滿足垂直行業大模型的進階需求。

三、堅守底線,規避行業敏感點

且不說數據領域本身就敏感,作為建立在海量數據之上的垂直行業大模型應用對數據的需求就非常嚴格,數據安全是一方面,數據的獨特性、權威性、有效性則是另一方面。

對此,雲測數據作為行業TOP企業始終將數據隱私安全放在業務開展的首位。雲測數據總經理賈宇航表示,為了確保垂直行業大模型用於訓練的數據合法合規,雲測數據都會與企業客戶簽訂數據授權協議。同時,雲測數據在過去多年的發展中也會建立具備自由版權的數據集,以幫助更多行業客戶去獲取更多的高質量數據。此外,雲測數據更是一家滿足ISO27001和ISO27701標準的AI數據服務廠商,並先後獲得ISO9001、ISO20000、CMMI3等相關認證。

結語

AI數據作為生產資料,是推動整個AI行業發展的必要一環,也是人工智慧商業化的主要驅動力之一。換句話來說,高質量的數據決定了AI的落地程度也不為過。雲測數據總經理賈宇航曾提出類似的觀點。

而垂直行業大模型的爆髮式增長,也就意味著AI數據需求的澎湃發展。圍繞高質量數據為需求,垂直行業大模型的落地才有真正意義的基礎。這是AI數據服務廠商的機會,也是人工智慧產業突破發展的關鍵。

*本文圖片均來源於網絡

文章來源: https://twgreatdaily.com/zh-tw/a1c43e8258cfd2850af6ef4729d65c11.html