做算力的浪潮信息為什麼還要再卷大模型?

2023-12-04   懂懂筆記

原標題:做算力的浪潮信息為什麼還要再卷大模型?

避免重複造輪子,前提是輪子已經造得很好。

大模型有多卷?

現在國內已經有180個以上生成式大模型,科技大廠、網際網路大廠紛紛入局,既有百度、浪潮信息、阿里、騰訊等一眾巨頭,也有專攻AI的訊飛、商湯等垂直領域小巨頭,以及「日日新」的創業企業。

今天A廠商發布大模型,各種參數對比下來堪稱最強,第二天B廠商發布下來,又刷新了各種記錄。最強、最大、強快,有可能只保持一天。這說明什麼?基礎大模型還有很大的進化空間。

11月27日,算力龍頭企業浪潮信息發布了完全開源且可免費商用的源2.0基礎大模型,包含1026億、518億、21億不同參數規模,這也是國內首個千億參數、全面開源的大模型。

作為一家做算力基礎設施的公司,為什麼如此努力地卷大模型?浪潮信息高級副總裁、AI&HPC總經理劉軍表示:最終用戶感受到的大模型能力是其在應用層面能力的表現,這些核心能力的本質,是由基礎大模型能力所決定的。在他看來,今天模型基礎能力與客戶預期之間仍有較大的差距,這也是浪潮信息不斷探索的原因所在。

GPT4不是天花板,百模大戰探索「更優解」

GPT3.5的發布,算得上是AI產業發展的一個重要拐點,很多人將之稱為AI的「蘋果時刻」。今年3月,OpenAI發布了GPT4,GPT4的能力比GPT3.5有一個巨大的提升,GPT4是當前業界最先進的技術大模型。

但是,即便是當前公認最先進的大模型,GPT4其實也還有很多挑戰沒有解決。

比如算力短缺,一直是OpenAI在其迅速崛起過程中不得不面對的一個棘手問題。當用戶海量湧入的時候,OpenAI已經出現過幾次崩潰的情況。為此,OpenAI採用了不同級別的會員收費,對用戶進行分層。並且還一度還採用停止註冊的方式來限制用戶的使用量,緩解算力壓力。

再比如AI幻覺。今天的GPT4給出的答案並不完全正確,有時候會有明顯的事實錯誤,有時候也會一本正經地胡說八道。這裡面也有很多原因,比如數據來源的問題,再比如不同法律體系、不同價值觀下的分歧等等。

GPT4遇到的挑戰還有很多,這些都是整個行業正在面臨的挑戰。今天,看上去大模型這個領域非常卷,但本質上還是處於產業初期。一方面,國產基礎大模型的能力和 Open AI 之間存在較大的差距,另一方面即使是最先進的GPT4,現在的能力還處於初級階段,很多問題依舊在探索開發。

通用大模型基座作為通用人工智慧的核心基礎設施,被嵌入到智能助手、機器翻譯、自動化客服等場景中,從而實現更加個性化、智能化、自適應的服務和應用。IDC預測,到2026年,全球AI計算市場規模將增長到346.6億美元,生成式AI計算占比從22年4.2%增長到 31.7%。

通用大模型是大模型產業的地基,地基的深度和強度決定大廈的高度。大模型和應用之間的關係,如果用上學和工作來比喻:大模型是12年小初高階段,垂直行業大模型是大學分專業學習的階段,應用則是進入到工作崗位開始為企業、社會創造價值的階段。

今年掀起百模大戰之後,業界有一種觀點認為不應該浪費資源重複造輪子。但前提是輪子已經比較成熟,如果今天的輪子還不好用,就值得更多的企業投入進來,探索各種不同的路徑來把輪子造好。所以,最近業內正在形成新的共識:在產業初期,適度的泡沫還是必要的。中國大模型的「百花齊放」是利好的,很大程度它可以激活創新,促進產業生態的繁榮發展。

浪潮信息人工智慧軟體研發總監吳韶華

「確實在當前大模型百花齊放的態勢下,必然大家會有不同的實現路徑,也會有理念衝突,這都是特別正常的事情。因為畢竟大家都在探索,都沒有出來一條非常有效的路徑。」 浪潮信息人工智慧軟體研發總監吳韶華表示。

浪潮信息為什麼也要進來一起卷大模型?浪潮信息左手有做大模型的夥伴,右手有做垂直行業應用的夥伴,可以說既懂底層技術又有上層應用經驗。更重要的是作為一家算力基礎設施公司,在產業初期,浪潮信息在算力上的探索會給整個產業帶來很大的推動力,比如算力資源的高效性、算力集群的可擴展性、算力系統的可持續性,這些都能讓算力更充分地釋放出來,這對整個產業都有極大的價值。

浪潮信息做大模型主要是兩個維度的探索:一是探索路徑、方法,比如有什麼架構可以節省算力,什麼模型可以讓數據更精準等等。二是探索邊界,今天大模型已經能做很多事,但隨著算力、算法、數據的疊代,新的能力也不斷被挖掘出來,大模型的上限到底在哪裡?

看上去已經很激烈的百模大戰,只是生成式AI的起點。通用大模型是一項異常複雜的系統工程,需從系統層面達以創新,從算力效率、線性擴展、長效穩定等多個方面進行探索。今天,沒有哪個企業有絕對的優勢,算力、算法、數據三要素都有很大的進化空間,此外還需要更好的應用來落地大模型的價值。也就是說,大模型還要卷,同時應用也要卷,打通一個能持續跑起來的飛輪生態,百模大戰的效果才真正實現了。

基因、智商、情商,打造「三高」大模型

作為最早布局大模型的企業之一,浪潮信息早在2019年就推出了中文AI巨量模型「源1.0」,是當時最大參數的大模型。「源」大模型的數據集和清洗經驗和幫助國內不少AI團隊提升了其大模型的性能表現,比如助力網易伏羲中文預訓練大模型「玉言」登頂中文語言理解權威測評基準CLUE分類任務榜單,並在多項任務上超過人類水平。過去的兩年,源1.0大模型的智能力與To B領域複雜的服務場景進行深度融合,構建專家級數據中心智能客服大腦,榮獲哈佛商業評論鼎革獎。

但是,源1.0開放出來之後,在客戶的應用場景中遇到了很多具體的問題。所有這些問題,都是浪潮信息升級源2.0的發出點。此外,GPT4是一個封閉的系統,就是一個黑盒子,大家不知道它是怎麼做的。那麼,中國的大模型也需要更多的創新,才有機會去超越GPT4。

簡單來講,浪潮信息源2.0在數據、算力、算法三個維度向前邁進了一大步。在懂懂看來,數據決定大模型的基因,算力是決定大模型的智商,算法決定大模型的情商,所以這是「更聰明「的大模型的核心三要素,源2.0就是一個「三高」大模型。

先說說數據。

「在有限的算力資源上,訓練數據的質量,直接決定了模型的性能,這個性能主要是指模型的智能化水平在任務上的表現。」 吳韶華強調,數據體量很重要,但是數據質量更重要。在源2.0中,浪潮信息的思路就是進一步提純數據,讓模型能基於更高水平的數據來訓練。

具體而言,源2.0通過使用中英文書籍、百科、論文等資料,結合高效的數據清洗流程,為大模型訓練提供了高質量的學科專業數據集和邏輯推理數據集。除此之外,為了更高效地獲得高質量的代碼數據集,浪潮信息提出基於主題詞或Q&A問答對自動生成編程題目和答案的數據集生成流程,提高了數據集問題的多樣性和隨機性;同時提出基於單元測試的數據清洗方法,可以更加高效地獲取高質量數據集,提高訓練效率。

「我們這套數據構建方法,能夠比較有效的解決網際網路海量數據清洗問題。我們後續的計劃是用我們的模型產生更高質量的數據,然後持續疊代,來提升我們大模型的能力。」劉軍表示。

接下來講一下算法。

傳統Transformer結構被業界廣泛採用,但是對中文的識別並不是最佳模式。源2.0有一個很大的創新,就是把attention(自注意力)這一層,採用了自研的新型LFA(Localized Filtering-based Attention)結構,中文名字是局部注意力過濾增強機制。考慮到自然語言輸入的局部依賴性,LFA通過先強化相鄰詞之間的關聯性,然後再計算全局關聯性的方法,有效地解決了傳統Transformer結構中對所有輸入的文字一視同仁,不能考慮自然語言相鄰詞之間的強語義關聯的問題,能夠更好地處理自然語言的語序排列問題,對於中文語境的關聯語義理解更準確、更人性,提升了模型的自然語言表達能力,進而提升了模型精度。

「我們發現在源2.0這個階段,依然是處於研究方向的初級階段,後面還有很多的可能性。圍繞著這個方向,我們團隊也會繼續研究下去,來嘗試進一步的得到更好的模型結構。」 吳韶華表示。

最後再來說說計算。

全球算力緊缺是一個短期內很難緩解的痛點,所以計算的調優,是整個產業都迫切需要突破的瓶頸,而這也恰好正是浪潮信息的優勢所在。

為了在各類計算設備上都有一個非常好的計算性能表現,源2.0中提出了非均勻流水並行+優化器參數並行(ZeRO)+數據並行的策略。相較於經典的三維並且方法,創新算法有更好的適用性,顯著降低了經典大模型訓練過程中對於AI晶片之間的通訊帶寬需求,同時還能獲得非常高的性能表現。

大模型算力系統並不是算力的簡單堆積,其需要解決低時延海量數據交換的挑戰;需要解決多台機器均衡計算、避免冷熱不均、消弭算力堵點的問題;需要解決在幾個月漫長的計算過程中,當單一硬體出現故障時,訓練中斷、梯度爆炸、算法重新走一遍等等問題。所以,源2.0也不是浪潮信息的最終「答卷」。儘管源2.0已經擁有非常出色的表現,但是在劉軍看來,這只是開了個頭,未來還有很多值得挖掘的方向,浪潮信息會不斷創新升級。

卷大模型還是卷應用?都要從開源中找答案

是應該卷模型還是卷應用?業界是有不同觀點的。

很多做大模型的企業,都主張應該卷應用。現在百模酣戰,是不是可以向前邁一步,開始卷應用了?

百度李彥宏在今年3月份就提出下一步的方向是大模型的應用,隨後在10月份的百度大會上一口氣發布了幾十個原生應用。從做大模型的企業來看,一定是在自己的模型上卷應用,讓模型不斷進化,讓應用價值不斷落地,這是沒有錯的。

浪潮信息高級副總裁、AI&HPC總經理劉軍

那為什麼還有那麼多企業參與到百模大戰當中呢?中國的大模型與GPT4還有或多或少的差距,即使是GPT4也還沒有進化到天花板,也依然有很大的提升空間。此外,劉軍認為未來的生成式AI是多元化生態,每個基礎大模型可能會有不同的擅長領域。

所以,放到整個產業的視角來看,大模型和應用都要卷:一方面需要繼續提升基礎大模型的能力,因為只有基礎大模型做好了才能更好地實現行業落地;另一方面,需要在應用落地方面繼續創新。只有大模型側和應用側同時發力,雙輪驅動,生成式AI的發展甚至是中國的AI產業才會有更好的前景。

雙輪驅動,怎麼卷才能最高效?答案是:開源。

在移動網際網路時代,有一個封閉的iOS系統,還有一個開源的安卓系統。蘋果很強大,自己就支撐了一個生態。但安卓更強大,開放的安卓系統吸引更多的手機廠商,更多的開發者,也衍生出一個更龐大的生態。

今年上半年,Meta的LLaMA開源,給業界開了一個好頭。正是看到開源的能量,國內的大模型也紛紛加入開源的陣營,包括阿里雲、百川、智譜AI、清華EKG等等。這一次源2.0也徹底開源,並且這是行業首個千億開源大模型。

「完全免費、完全可商用、不需要授權、最徹底的開源。」吳韶華表示,浪潮信息希望通過開源真正的能夠普惠產業用戶,個人開發者,讓大家能夠通過源2.0構建更強的AI系統。

劉軍強調,開源最本質的好處是讓整個產業能夠協同發展,「回顧過去所有成功的開源項目,都是因為整個社區共同貢獻的結果。」

首先,開源可以建立一個高效的反饋閉環,通過應用反哺大模型,加速大模型的進化。

浪潮信息希望通過開源吸引更多的開發者進來,同時發起了大模型共訓計劃,開發者可以在源2.0上自由地開發,如果遇到問題可以反饋給浪潮信息,儘快地提升模型的能力。

其次,開源可以更廣泛地賦能行業、賦能企業,加速大模型價值的落地。

優秀開源模型是吸引開發者、繁榮生態的關鍵因素。以開放的心態開源,給開發者更強有力的支持,他們可以直接調用API、中文數據集、模型訓練代碼等,大大降低開發者將大模型能力適配不同場景的難度,加速應用的落地,讓企業儘快吃到AI時代的紅利。

所以,無論是卷大模型還是卷應用,開源都是一條光明大道。

【結束語】

在諸多大模型中,浪潮信息也卷了進來。與其它大模型不同之處,就是其在計算方面的優勢,通過算力的產品和技術的創新推動數字化、智能化的發展。

源從1.0進化到2.0,給產業打個樣,通過智算的力量去訓練生成式AI大模型,浪潮信息的很多探索成果,可以賦能加速AI產業化和產業AI化的進步。