大模型做通用 Or 垂直?中小AI公司的「生死抉擇」

2023-06-29     AI掘金志

原標題:大模型做通用 Or 垂直?中小AI公司的「生死抉擇」

做行業的垂直大模型,同樣存在巨大的商業價值。

作者 | 路遙

編輯 | 南書

以ChatGPT為代表的大模型再一次帶火了人工智慧。

基於目標人群、用途和適用場景的不同,大模型市場可分為通用大模型和垂直大模型兩大類。

通用大模型,聚焦基礎層,以技術攻關為目的。他們對標ChatGPT做通用大模型,百度的文心一言,阿里的通義千問、科大訊飛的星火大模型等都歸屬這一類。

垂直大模型,聚焦解決垂直領域問題,以產品開發為目的。他們在通用大模型基礎上訓練行業專用模型,應用到金融、醫療、教育、養老、交通等垂直行業。

通用大模型,聚焦基礎層,以技術攻關為目的。他們對標ChatGPT做通用大模型,百度的文心一言,阿里的通義千問、科大訊飛的星火大模型等都歸屬這一類。

垂直大模型,聚焦解決垂直領域問題,以產品開發為目的。他們在通用大模型基礎上訓練行業專用模型,應用到金融、醫療、教育、養老、交通等垂直行業。

通用大模型的長處聚焦於一個「廣」字,面向人群以及場景適用範圍十分廣泛。

但對於特定場景而言,企業並不需要通用大模型的「全能」能力,更多需要的是模型的精度和質量。

垂直大模型以此為切入點,選擇了另一條路徑。他們以具備的行業知識為基礎,通過與通用大模型企業合作的方式,訓練行業專用模型。

「站在客戶角度,行業客戶最為看重的是定製化的需求,以及AI企業的工程化落地能力。」眾數信科CEO吳炳坤認為。

作為垂直大模型的一員,眾數信科成立於2021年初,由雲從科技、廈門火炬創投、民生電商發起成立。

眾信數科定位AIGC領域的「知識智能化」,即將數字城市領域沉澱的行業數據、專家經驗,通過AI 技術進行工程化。

簡單理解,眾數信科只做一件事,即將AI 大模型微調為行業專用模型,幫助行業提升效率。

在吳炳坤看來,做行業的垂直大模型,同樣存在巨大的商業價值。

通用大模型門檻高企,初創公司在垂直大模型尋找機會

過去幾年,商業化一直是困擾整個人工智慧行業的難題,大模型的出現讓AI商業化看到了新機會。

吳炳坤將AI比作工業時代的石油鑽機:「沒有鑽井機,石油就無法成為工業時代的黑色血液;數據要素時代,沒有AI,數據的價值也就得不到充分挖掘。現在大模型帶來了無限的想像和發展機會。」

現在,隨著 AI 大模型這一關鍵技術的突破,數據和AI的結合度更加緊密,上述問題都得以突破。

大模型將對全行業都產生顛覆性地重構,已經是業界共識。百度李彥宏、阿里張勇等不少業界大佬都在不同場合,不斷重複同樣一句話:AI 大模型時代,每個行業的應用都值得重新做一遍。

從目前國內扎堆發布的大模型來看,基礎大模型的技術創新,更多是大公司的角斗場。

阿里巴巴張勇曾指出,超萬億參數的大模型研發是一場「AI+雲計算」的全方位競爭,囊括了算法、底層龐大算力、網絡、大數據、機器學習等諸多領域,是一項複雜的系統性工程。

一方面,通用大模型需要大量有效的數據與計算資源,這離不開超大規模的AI基礎設施的支撐;另一方面,長時間的訓練、推理背後,也往往意味著高昂的成本。

正因此,當下大模型市場的主角大都是來自於移動網際網路時代的大巨頭,如百度「文心一言」、阿里「通義千問」、騰訊「混元」等。

大公司們瞄準廣泛適用的人群,齊齊布局 NLP、CV、跨模態等多種模型,動用同樣海量的數據參數進行預訓練,動作整齊劃一。

這種「你有,我也有」既是實力的展現,同時也存在同質化問題,會逐漸消弭彼此之間的辨識度,難以在市場中發揮優勢。

並且,大模型「海納百川」的魅力縱然令人著迷,但其終歸是一項技術,技術只有與具體應用結合變成產品,帶來實際的使用體驗和轉化成效,才真正具有價值。

換句話說,通用大模型的「大」和「通用」看著誘人,但對於B端行業客戶來說,並不能滿足需求。

行業客戶使用大模型的最終目的,是讓業務發展走上新的台階。因而,他們需要的不是綜合技術上的碾壓,而是能在具體需求上追求極致,可以實現功能最大化的產品。

換言之,行業客戶願意為合理開發利用的功能買單,但不會為自己用不到的功能買單。

在此背景下,中小初創型企業們,看到了機會。

他們受限於資金和技術,難以走上通用大模型的角斗場,但由於本身具備一定的行業領域知識,反而在垂直大模型的探索上具備天然優勢。

在人工智慧時代的浪潮中,聚焦少數細分賽道,在通用大模型的底座能力之上,圍繞「如何用好大模型」這一接地氣的主題,已經成為小公司們安身立命的根本。

專用大模型必經的三重淬鍊:技術、場景、數據

當下,很多主流的AI大模型,並沒有對外開放模型的訓練和微調。較為普遍的做法是,將模型開發好以後,給用戶提供一個接口調用。

在吳炳坤看來「很多 AI 大廠現在不會將大模型微調為行業專用模型的能力開放出來。」

首先,AI大模型的打造是一個從算力,到整個框架,到模型再到應用的遞進過程,當下AI大廠更多處在夯實基礎能力的階段。

其次,AI產品進入行業,需要跟外部行業應用做適配協同,目前國內的AI大模型做得還不夠成熟,當下這個時間點,AI大廠還不太具備工程化落地的能力。

這一現實背景下,垂直大模型玩家要想在通用大模型的基礎上微調和推理,定製行業專用模型,並非易事。

基於和雲從科技的關係,眾數信科不僅能夠參與進雲從大模型的開發過程,還可以在雲從大模型的基礎上訓練和微調自有的專業模型。

「通過雲從,眾數信科可以獲得更加便捷的接口,更加開放的合作架構,定製化的銜接服務。現在市場上除了AI大廠,其他公司不具備這個能力,這是現階段眾數信科有別於其他創業公司的優勢。」吳炳坤說。

在吳炳坤看來,大模型在業務落地過程中,需要不斷強化三個方面的要素:一是人工智慧技術研發,二是可觸達用戶的行業場景,三是高質量的行業數據語料。

在技術和場景兩個要素上,眾數信科的三家股東優勢互補,形成了一個較為完整的閉環。

底層技術方面,有雲從科技的算法、算力做背書;在應用場景上,有廈門火炬創投提供的製造業產業數字化實踐基地;在落地過程中,則有民生電商提供金融和產品商業化落地的資源支持。

三個要素中,最難的是行業數據的獲取。因為行業數據會直接影響技術疊代速度和商業競爭。

根據數據的變化性,行業數據可以分為靜態數據和動態數據。

靜態數據相對穩定,不會發生即時變化,獲取路徑較為清晰,比如廣泛存在於各級政府部門、國企、企業中的自有文檔,以及資料庫中的數據等。

動態數據指不同行業場景中每時每刻產生的數據,這部分數據不斷更新、變化,不容易獲得,是與其他競爭者拉開距離的關鍵能力。

對動態數據的實時獲取是眾數信科的核心優勢之一。

過去兩年,眾數信科以「i城市生活服務平台」為媒介,觸及了國內6個省16個城市的3000萬個人用戶和數十萬企業用戶,積累了大量數據。

通過i城市服務平台,眾數信科積累了豐富的場景數據,G/B/C端用戶需求和行業know-how,依託主流大模型技術底層能力,為客戶提供專業領域的知識智能工程化產品和KAAS服務。

此外,由於當下通用大語言模型在專業領域裡可訓練的語料較為缺乏,因此語言模型落地細分領域過程中,知識局限、認知偏見、記憶幻覺等問題時有發生。

其中,知識局限、認知偏見問題,可以隨著數據的不斷積累、量變,得到解決,更大的難點來自於記憶幻覺。

本質原因在於,語言模型並非傳統理解中的一個資料庫,沒有真正的記憶能力,無法記住過去處理過的信息。而是通過訓練數據學習文本序列的數據分布,然後再根據學習到的數據分布生成文本序列,最終生成內容。

吳炳坤表示,「大模型並非一蹴而就,而是一個不斷動態優化的過程。眾數信科會根據特定行業場景,以及對知識庫上下文的學習等特定方法,在較大程度上規避生成內容『胡編亂造』的情況,同時不斷和客戶做基於人類反饋的強化學習。」

行業專用模型的商業化落地,一場從B到C的競速

對比通用大模型,行業大模型需要更快的商業化來兜底。

「AI大模型在行業落地的賽馬,誰跑得越快,誰越有機會。」吳炳坤如此總結。

眾數信科的商業化思路是:G端搭平台,B端積累經驗,C端快速複製。

通過 G 端切入,能夠快速覆蓋市場,同時批量聚攏B端和C端資源,最終將B端行業客戶經驗,快速複製到C端。

「只有C端才能形成快速複製的病毒效應,C端是現在以及下一個階段重點布局的領域。」

城市生活服務領域,教育、養老和文旅,是眾數信科找到的三大落地場景。

以教育行業為例,眾數信科依託雲從的從容大模型,首先打造出了適用於學校、培訓機構的教育行業專用模型,並已在廈門部分地區試點使用。

具體落地過程,主要分三步進行:

第一步,積累和標註。基於多年在數字平台建設和運營中積累的教師行業專業語料數據,同時依託行業專家經驗對數據進行標註,形成專有領域的訓練數據。

第二步,訓練和微調。在前者的基礎上,依託雲從的從容大模型,採用知識蒸餾、權值量化、剪枝等工程化手段,將通用、龐大的教師網絡,訓練成一個特定行業的學生網絡。

第三步,落地和反饋。進入具體場景,並在此後運營過程中,不斷積累用戶的正負反饋,通過基於人類反饋的強化學習,反向打磨教育行業模型。

第一步,積累和標註。基於多年在數字平台建設和運營中積累的教師行業專業語料數據,同時依託行業專家經驗對數據進行標註,形成專有領域的訓練數據。

第二步,訓練和微調。在前者的基礎上,依託雲從的從容大模型,採用知識蒸餾、權值量化、剪枝等工程化手段,將通用、龐大的教師網絡,訓練成一個特定行業的學生網絡。

第三步,落地和反饋。進入具體場景,並在此後運營過程中,不斷積累用戶的正負反饋,通過基於人類反饋的強化學習,反向打磨教育行業模型。

上述三個步驟中,專家的數據標註,以及基於人類反饋的強化學習,是兩個必經的難點。解決這兩個難點,需要通過推廣行業應用,加強知識積累,不斷自我疊代逐步解決。

與模型專業性的逐步進步相對應,眾數信科選擇了從教師的「數字助理」到「數字分身」的漸進路線。

現階段,眾數信科的行業專用模型還處在教師的「數字助理」階段。「數字助理」具備課件自動生成、靈活生成考題、對學生進行個性化評價等服務,教師在生成內容的基礎上做最後的審核把關即可。

一方面,「數字助理」通過輔助教學的方式,可以大大解放教師的精力,不斷提升教學效率;另一方面,在與教師共同工作過程中也可以不斷學習,最終成長為優秀教師的「數字分身」,達到接近一位優秀教師的程度。

目前,我國教育資源供給側明顯不足,先進地區和落後地區的教育資源差距較大。打造教育行業模型的意義在於,可以藉助AI,將先進地區的先進學校的先進教師經驗傳承下來,帶到部分教育資源供給不足的地區。

眾數信科採取了兩條腿走路的辦法,即分別在教育先進地區和教育落後地區推廣「數字助理」和「數字分身」。

「將先進地區教師知識的沉澱,放在同樣先進的地區,可能不能滿足需求,但在一些教育落後地區,基本上能夠符合當地的使用需求。」

換言之,發達地區沉澱的「數字助理」,在部分教育資源稀缺地區,已經相當於教師的「數字分身」。

吳炳坤透露,今年下半年,眾數信科將在黑龍江教育資源比較欠缺的地區,進行「數字分身」的布局。

未來,隨著教育行業的模型沉澱和知識積累,因人施教也是教育模型功能演化的重要方向。「數字分身」可以進一步走入家庭,根據不同學生提供差異化教育方案,做到因人施教,為家庭教育減負。

結語

當下,無論通用大模型玩家,還是垂直大模型玩家,都在全力奔跑,尚未形成獨大格局。

但據吳炳坤判斷,「對於AI 大模型,如果推出爆款產品,大機率會形成通吃的局面。」

對眾數信科等中小初創企業來說,兩個明顯的壓力擺在眼前:

一方面,行業的快速發展,催促著企業要迅速產生爆款產品,同時形成快速疊代的能力。這對企業的人才儲備、產品和技術路線、戰略決斷能力、資金儲備等都提出了更高的要求。

另一方面,隨著來自不同背景的玩家相繼入局,競爭格局也將隨之變化,比如教育領域,科大訊飛、猿輔導等都已悉數入場。

AI大模型在行業落地的賽馬,勢必是一場爭分奪秒的競爭。

推薦閱讀

朱力:打好國產3D視覺技術「突圍戰」|3D視覺十人談系列

樊鈺:一位3D視覺創業者的「生意經」 | 3D 視覺十人談

文章來源: https://twgreatdaily.com/814ab1f54e492ddfa349296fc791a6ec.html