中國大模型的路,是不是走歪了?

2023-09-26     AI狐頭條

原標題:中國大模型的路,是不是走歪了?

原創 | 數據猿

在這波全球大模型的浪潮中,中國與美國無疑成為了領軍者。但中美在大模型的發展策略上卻出現了顯著的分歧。美國,以OpenAI為代表,持續致力於通用型大模型的研發。與此相反,中國則將目光投向了行業大模型。眾所周知,國內科技巨頭如百度、阿里、華為等,在已有的通用大模型基礎上,紛紛推出了為各個行業量身定做的大模型。同時,眾多的創新公司和各行各業的頭部企業也開始湧入這個領域,積極地發布各類行業大模型。

然而,當我們沉浸在這種欣欣向榮的景象中時,一系列的跡象引起了筆者的關注,我們不得不思考一個問題:中國在大模型的探索之路上是否已經偏離了正確的軌道?難道我們又要重蹈當年SaaS市場的老路,走入一個看似繁榮卻可能是誤區的局面嗎?

行業大模型並不是空中樓閣

大模型的出現和快速發展為AI領域帶來了革命性的變革。其中,大模型的核心流程可以簡化為兩大環節:預訓練和微調。通過預訓練,我們得到了所謂的「通用大模型」。進而,基於這種通用模型,我們可以使用特定行業的數據進行微調,從而產生「行業大模型」。

在過去的幾個月里,我們目睹了中國湧現出大量的行業大模型。這種現象背後隱含的一個事實是:打造行業大模型的技術門檻相對較低。為什麼會這樣呢?首先,隨著開源技術的普及,技術上的壁壘逐漸被打破。許多優質的預訓練技術、框架和工具已經被廣大研發者和機構所採納和使用。其次,相對於開發一個全新的大模型,微調現有的通用大模型更為簡單快捷,只需要大量、高質量的行業數據即可。

打造一個強大的通用大模型卻是一項長期且複雜的任務,這需要巨大的計算資源、多樣化的數據和深厚的技術積累。因此,相比之下,行業大模型的產生,就顯得更為便捷了。

但這種便捷性帶來的是雙刃劍效應。大量湧現的所謂行業大模型,並不具備真正的競爭壁壘。這其中的原因多種多樣。技術上,因為它們大多基於相似的開源技術和通用大模型進行微調,很少有真正的技術創新。數據上,儘管行業數據是關鍵,但許多企業並沒有真正挖掘、整合和利用這些數據的能力,使得其微調的效果並不理想。

底層通用大模型的每次疊代,都將「淹沒」一大批所謂的行業大模型

當我們談論現代技術時,我們必須理解其動態性和快速發展的特性。大模型技術的快速疊代就是一個典型的例子,每次通用大模型的升級都使其前一代的技術變得陳舊。

以OpenAI的GPT系列為例,從GPT到GPT-4,其發展歷程幾乎可以形容為「飛速」。而在技術世界中,速度就是競爭力。每當OpenAI發布一個新版本,它都會因為更多的參數、更先進的算法和更高的性能,使前一版本相形見絀。而這種進化不僅僅局限於通用模型,實際上,它更多地影響到了基於前一代模型微調出的行業大模型。

試想,一個企業可能已經投入大量資源在GPT-3上,開發出一套專門為醫療領域設計的AI系統。但當GPT-4問世時,這家企業突然發現,他們的專業系統在新的通用模型面前相對落後,甚至可能不如直接使用GPT-4的效果。這就是因為,每次通用大模型的疊代都意味著一個巨大的技術飛躍,其對特定任務的處理能力會顯著增強。

這種現象與硬體行業的情況相似,我們可以把它比喻為計算機硬體的迅速更新。當Intel推出新的處理器時,前一代處理器即使還能正常運行,但在性能和能效方面都會相對落後。而在AI領域,這種更新周期更短、變革更劇烈。

回到大模型,當我們基於某一代模型投入大量資源進行微調時,我們必須認識到這種投資的風險性。舉例來說,當一個初創公司決定基於GPT-3開發一個針對金融行業的AI助手時,他們可能面臨的風險是,僅僅過了幾個月,GPT-4或GPT-5的發布會使他們的產品立即過時。

行業大模型是商用的重要方式,但不要忘了前提條件

誠然,行業大模型的出現似乎為各個垂直領域帶來了巨大的機會。它們可以更好地滿足特定行業的需求,提供更加定製化的服務,幫助企業提升業務效率,提供更高品質的客戶體驗。

然而,一切的基石依然是一個強大的通用大模型。只有當通用模型具備強大的能力時,行業大模型的微調才能真正發揮價值。

值得深思的是,中國在AI領域已取得了許多值得驕傲的成果,但與國際頂尖的通用大模型,如GPT-4相比,國內仍存在一定的差距。這對於中國的技術界來說是一個挑戰,也是一個機會。挑戰在於如何在短時間內彌補這一差距,機會則在於一旦做到,國內的行業大模型將能夠站在一個更高的起點。

而現在的現象是,部分企業在通用模型的基礎還不夠穩固的前提下,急於推出一系列的行業大模型。這種策略顯然有其商業邏輯——儘早進入市場,嘗試儘快實現商業變現。但這種策略忽視了一個核心問題,那就是技術的根本價值。

企業應用AI技術的根本目的是為了解決實際業務問題,提高運營效率和客戶滿意度。而如果一個行業大模型在語言理解、邏輯推理、數理計算或內容生成等核心能力上都表現不佳,那麼它所帶來的實際商業價值就會大打折扣。客戶不會因為一個產品聲稱自己是某個行業的大模型就選擇購買,他們更關心的是這個模型能為他們的業務帶來什麼實際效益。

因此,對於企業和技術研發者來說,關鍵不在於急於推出各種行業大模型,而是要認識到,強大的通用大模型是所有行業應用的基石。只有在這個基石穩固的基礎上,行業大模型才能真正發揮出其應有的價值。

換言之,現在的首要任務是加強通用大模型的研發,儘快追趕國際水平,然後再以此為基礎,推出真正有價值的行業大模型。這樣的戰略布局,既能保障技術的長遠發展,也更能真正滿足市場和客戶的需求。

真正的創新,應該始終以實際需求為導向,而不是盲目追求短期的商業利益。

應該怎麼做呢?

對於企業和機構來說,僅僅擁有一個行業大模型並不足以確保其在市場中的競爭優勢。

那麼,應該怎麼做呢?筆者認為,應該在通用大模型和行業大模型上同時發力。

首先,通用大模型還需要儘快進化。無論是文心一格、通義千問還是盤古、混元大模型,都需要進化。

一方面參數規模還需要持續擴大,得有萬億級參數規模的大模型。從技術原理上,擴大參數規模,是提升模型智能湧現的重要方式,這是大模型智能提升的「物理基礎」。就像人類為什麼比其他動物聰明,人類大腦的神經元數量要顯著多於其他動物,就是一個關鍵的基礎。

另一方面,在大模型構建、優化的工程能力方面,還需要進一步提升。大家都是基於Transformer架構,技術原理並不是什麼秘密,但為什麼ChatGPT就是比其他大模型表現得更好?關鍵就是其AI工程化能力更優。就像造原子彈的技術原理並不是什麼秘密,但要造出原子彈,卻有大量的技術秘訣和經驗,是一個浩大的工程。

只有底層通用大模型足夠好,在此基礎上構建行業大模型才有意義。

接下來,在構建行業大模型階段,要在兩方面發力:

一方面,要彙集足夠規模的高質量行業數據。現在的情況是,各行各業的數據資源都非常有限,並且散落在不同的公司和機構中。這種分散性不僅導致了數據的量不足,更關鍵的是,沒有統一的數據標準和質量控制,使得模型訓練效果大打折扣。為了解決這一問題,我們需要促進企業和機構之間的合作,推動行業數據的開放和共享。

比如醫療大模型,關鍵就是要有足夠的醫療數據。這需要通過醫療數據的開放共享來構建行業數據集實現,某個企業、機構的數據量始終是有限的。現在限制行業大模型的一個關鍵瓶頸,就是沒有足夠的高質量行業數據,行業數據太分散了,而且質量不夠高。要著力解決這個問題。

另一方面,要將行業知識固化到行業大模型當中,這需要一些專業人士與AI人才配合,進行大量的模型調優工作。無論是通用大模型還是行業大模型,其背後的初衷都應該是為用戶和客戶提供真正的價值。客戶需要的不僅僅是技術上的新鮮感,更重要的是在真實的業務場景中,模型能夠為他們帶來實際的幫助和效益。

無論我們在技術上如何進步,始終不能忘記為什麼我們要做這一切。

文:一蓑煙雨 / 數據猿

文章來源: https://twgreatdaily.com/zh-cn/77b7281f3c40e84bbeaa6908dbb1ed12.html