華為AI存儲「求解」大模型

2023-07-17     AI掘金志

原標題:華為AI存儲「求解」大模型

存儲廠商誰能搶先解耦大模型訓練的痛點,誰就能占據高地,成為第一個吃螃蟹的人。

作者 | 南書

編輯 | 余快

比起大模型前台的火熱,人們的注意力很少關注到產業鏈上游。

畢竟,相較於ChatGPT流利的回答、豐富的趣味性,帶來工作效率的提升,晶片、存儲等硬體並不性感甚至略顯枯燥。

但人們不能忽視這樣一個問題:在產業分工極度明確的時代,行業進步從來不是某家廠商推動的結果, 而是整條產業鏈的協同驅動

ChatGPT驚艷全世界的背後,並非只有OpenAI 無數天才工程師日夜的技術攻堅。Nvidia的GPU、Samsung的存儲器、Intel 的 CPU等硬體亦不可或缺。

從更底層的邏輯看,以ChatGPT為代表的大模型,本質上離不開兩個要素: 海量有效的數據,和強大的算力。

在人工智慧的三架馬車中,數據是生產原料,算力是基礎設施,算法則是大模型的邏輯表示,三者的關係逐層遞進,水乳交融。

毫無疑問,大模型的高樓,建立在數據和算力的基底之上。

如今,國內千行百業湧起大模型熱潮,進入「群魔共舞」時代,誰能做出中國版的ChatGPT尚且未知。

但訓練大模型所需要的GPU和存儲器,卻迎來了一次新的擴容機會。

今年5月底,GPU頭部玩家 Nvidia 的市值突破萬億美金,昭示著大模型這場火,首先蔓延至產業鏈上游,讓企業吃到了第一波技術紅利。

與數據相伴相生的存儲器,在大模型的推動下,也正迎來一次技術革命和市場躍遷。

一、大模型熱潮下的數據:總量大、種類雜、多噪音

肇始於數據大爆炸,當前的數據量正在極速增長,從TB到PB再到驚人的ZB,如何存儲海量的數據,是諸多數據中心、企業必須要解決的問題。

另一方面,以大模型為代表的多模態AI,數據結構、類型遠比單模態AI複雜,數據量也更加龐大。

兩大趨勢相互疊加,市場對於存儲的增量需求呼之欲出。

站在微觀角度,企業研發大模型要經過以下幾個階段: 數據歸集、數據預處理、模型訓練 、 推理應用,每個階段都離不開存儲。

在數據歸集階段,大模型所需要的數據量大且種類繁多。對於存儲而言,除了要擴容裝下數據,更重要的是把各種非結構化的數據整合在一起,並且安全地流轉,才能為企業所用。

這並非一件易事,因為數據格式、種類以及協議各不相同,企業需要花大量人力物力來打通壁壘,甚至建立起標準和生態,技術優勢和商業地位缺一不可。

而到了模型訓練階段, 數據的質量決定著模型的上限。

換句話說,大模型依賴數據並不嚴謹,更準確的說法,應該是依賴有效數據。

以往的訓練模式,XPU通常直接調用所有數據進行訓練。

但在海量數據中,並非所有數據都能用得上,一些數據的存在反而會降低模型訓練效果,延長訓練周期。

因此, 在預訓練階段,可以事先做數據預處理和歸集,排除這些數據「噪音」,留下乾淨有效的數據,以減少模型的「幻覺」。

更進一步,由於網絡波動、XPU故障,許多大模型在訓練時會中斷,即Checkpoint時刻,然後重啟訓練。恢復過程中,訓練會退回到此前的一個節點,相當於有一部分會重新訓練一次,這既延長了時間,又增加了XPU功耗。

該問題的關鍵點在於,如何快速地接觸到Checkpoint的數據,恢復訓練,縮短時間,這對存儲的並發性、帶寬傳輸等要求極高。

最後一關是推理應用,大模型將直接與客戶面對面,是展現模型效果最有效的窗口。

這個窗口關係著用戶體驗,因此對於大模型的響應時間要求非常之高。

以ChatGPT為例,在一些簡單的問題上,用戶提問得到回答的平均時間在10s以內。如果時間太長,用戶體驗將會很糟糕,並且喪失對模型的信任,乃至給予差評。

這反應的是大模型推理的時延現象。通常來說,模型精度相近,時延越長,體驗越差。因而縮短時延,對於大模型廠商而言至關重要,類似問題其實可以在存儲上做創新,進行模型優化。

回歸第一性原理,訓練大模型的幾個難點, 本質上都是圍繞如何利用好數據這一核心命題展開。

存儲作為數據的基礎硬體,並非僅僅只是簡單地記錄數據,而是深刻參與到了數據歸集、流轉、利用等大模型訓練的全流程。

國內大模型百家爭鳴,率先勝出的卻是GPU廠商Nvidia。那麼,按照XPU的增長邏輯,存儲也理所應當能夠複製Nvidia的造富奇蹟。

這一制勝的法門在於,存儲廠商誰能搶先解耦大模型訓練的痛點,誰就能占據高地,成為第一個吃螃蟹的人。

二、AI存儲三要素:精度、效率、能耗

以往,訓練模型的方法簡單而粗暴:大量的數據加上人工,以及強大的算力,不斷調優,提高模型精度。

這種大力出奇蹟的方法有用,但成本極高,一度成為許多AI公司脫不掉的舊長衫。

事實上,在AI的三架馬車之中,對任何一個環節的優化,都能降本增效。而此前的訓練方法,將側重點放在了算力方面,一些公司買了強大的XPU,訓練效率確實提高了,但模型訓練效果仍然較差,效率低、功耗大、精度低等問題層出不窮。

根本原因在於, 算力只是工具,而數據才是生產要素,只提升工具而不優化數據的做法,抓錯了重點。

這就好比,巧婦難為無米之炊,一個再精幹的廚師,沒有好的食材,也很難做出一道精美可口的菜肴。

在類似大力出奇蹟的模式下,過去幾年,國內的公司積累了大量的算力資源。現在面臨的問題是: 如何把這些算力用上,而不至於冗餘、閒置,造成浪費,並且創造價值。

華為蘇黎世研究所存儲首席科學家張霽認為, 在算力足夠的情況下,模型訓練的效率已經達到極致,如果要進一步提高效率和模型效果,需要在數據上下功夫;更進一步,則是在數據依附的存儲器上做技術創新。

以前文提及的數據預處理為例,過去的訓練方式是XPU直接調用所有的數據訓練,用完之後放回存儲器,這種方式存在幾個問題。

首先,XPU調動的是所有數據,這些數據存在噪音,會影響訓練效果;其次,XPU在調用、放回數據時,會增加能耗及時間;最後,由於數據量過於龐大,單靠內存遠遠不夠,因此必須加載外存的方式來存儲數據,那麼數據在流轉時,面臨安全風險。

舉個簡單例子:

假設手機里有一萬張照片,如何快速、準確地找到其中一張?

傳統的方式是,打開手機文件夾,裡面會顯示一萬張照片,如果照片解析度過高,手機加載圖片還需要時間,然後由用戶一張一張比對、查找,低效而且容易出錯。

目前比較常見的是,在手機存入照片時,存儲器便已經提取照片的特徵值,做好數據歸集。那麼當用戶想要查找照片時,只需輸入圖片的標籤,就能找到符合特徵的圖片,縮小了查找範圍。

從存儲的角度看,這裡面的邏輯,其實是存儲器做了數據預處理,當 CPU在查找圖片時,根據特徵值,調用的是一萬張圖片里的一個小的數據集,因此速度快、能耗低,準確度高,並且不占用更多的計算資源。

對於大模型而言,上面的邏輯依然成立。

在存儲器端,企業可以先做數據預處理,剔除無效數據(噪音),並將數據做歸集整理,那麼XPU在調用數據時,則只調用需要用到的數據,速度更快,效率更高,並且XPU的利用率,也得到提升。

並且,存儲器本身直接與數據接觸,是數據安全的第一關。因此在存儲器上對數據進行加密、保護,也能最大限度地保證數據的安全流轉。

如果說大力出奇蹟是靠鋪算力來提升模型訓練效果,那麼 在存儲器上對數據做預處理,則是從整個模型的訓練流程來縮減存算成本、提高效率和精度。

很明顯,前一種方式被廣泛使用並達到了極限,後一種方式正呈星火燎原之勢,開始席捲整個AI行業。

三、AI存儲如何讓企業用上大模型?

翻開ChatGPT的發展史,從1.0疊代到4.0,OpenAI投入了數以億計的資金,即便是當下,訓練一次的成本也高達數百萬美元。

說到底,現階段大模型還是一門燒錢的生意,沒有強大的資金實力和人才梯隊,根本上不了牌桌。

業界存在一個觀點:通用大模型只能是大廠的遊戲。但這並不意味著,非大廠企業不能夠擁有自身的模型。

當前, 在基礎大模型之上,建立行業大模型,成為普遍的商業範式。

對於缺少AI能力的企業而言,站在巨人肩膀上,無疑是一條省時省力且省錢的捷徑。

這些企業的比較優勢在於,靠近數據,而且這些數據真實有效。

這一優勢恰恰也是劣勢: 很多企業不會用這些數據。

為此,企業不得不與基礎大模型廠商合作,將數據開放,訓練模型。

但對於部分企業,數據安全的重要性或許更甚於數據的價值。

那麼,如何在保證數據安全流轉的情況下,又能利用好數據,激活數據價值,擴展業務?

答案呼之欲出: 在存儲器上,把企業數據,通過向量的方式,轉化為模型所需要的數據。並且,基於存儲器本身的安全管理,可實現數據的安全流轉。

這樣一來,企業不但可以訓練行業模型,並且只需要維護這一小部分數據,入住門檻降低了;還能將數據的所有權掌握在自身手中,安全係數也升高了。

基於此,華為推出了兩款AI存儲產品: OceanStor A310 ,FusionCube A3000

OceanStor A310 是一款深度學習數據湖存儲產品,可以為企業訓練大模型提供從「數據歸集、預處理到模型訓練、推理」的存儲支撐。

具體參數方面,OceanStor A310滿足多協議無損融合互通,支持96快閃記憶體盤,其帶寬達到400G/秒,IOPS達到1200萬,最高支持4096個節點的橫向擴展。

同時,OceanStor A310具備存內計算能力,內置的算力可以支持AI大模型接入分散在各個地方的原始數據,並實現跨系統、跨地域、跨多雲的全局統一數據視圖和調度,簡化數據的歸集流程。

FusionCube A3000則是一款訓/推超融合一體機,集存儲、網絡、計算、模型開發平台於一體,內置了OceanStor A300的存儲節點,面向百億級模型應用,並支持一站式安裝部署,2小時即可部署應用,並通過藍鯨應用商城提供業界主流大模型服務。

目前,華為FusionCube A3000產品既可以一站式交付,也支持集成其他的AI大模型軟體,並開發算力平台、網絡等。在其內置的OceanStor A300存儲節點上,廠商可以集成第三方GPU、軟體平台,構建適合自身的超融合節點。

簡而言之,OceanStor A310 和 FusionCube A3000,本質上是為了解決許多企業在構建行業模型時缺乏技術支撐的難題。

而且, 這兩款產品本身適用於不同的客戶,前者適用於「存」,具備通用的能力;後者提供一站式交付能力,為企業實施大模型應用降低門檻。

AI存儲的未來

從工業社會到信息社會,伴隨著新技術的發展,數據的總量呈幾何級數增長。

如何利用好數據成為關鍵,而這又與存儲技術息息相關,兩者相互影響、互相作用。

當大模型這類技術開始「湧現」,市場對於新的存儲架構、技術的需求驟然加快。

華為蘇黎世研究所存儲首席科學家張霽認為,在傳統以XPU為計算中心的體系下,所有的數據都圍繞XPU展開,在這個過程中,數據的流轉會帶來能耗、效率、安全等諸多問題。

這些問題實際上可以通過數據和控制分離,利用技術創新,讓一些數據繞過CPU,直接「投喂」給GPU,一方面減少CPU負荷,另一方面提高GPU利用率,縮減整個訓練過程中的流程成本。

「模型訓練應該回歸到數據本身。」

推薦閱讀

華為盤古大模型、特斯拉人形機器人...上海人工智慧大會的「三大看點」

大模型做通用 Or 垂直?中小AI公司的「生死抉擇」

文章來源: https://twgreatdaily.com/8e0039b05410fdc86eeae6ead782b792.html