大模型需要什麼樣的智算中心?7位大咖談AIGC時代算力挑戰與風口丨GACS 2023

2023-10-09     芯東西

原標題:大模型需要什麼樣的智算中心?7位大咖談AIGC時代算力挑戰與風口丨GACS 2023

智東西

編輯 | GACS

9月14日-15日,2023全球AI晶片峰會(GACS 2023)在深圳市南山區圓滿舉行。在第二天舉行的智算中心算力與網絡高峰論壇上,來自商湯科技、中國移動研究院、浪潮信息、科華數據、首都在線、趨動科技、中科馭數等7家企業或機構的技術決策者及高管分別發表主題演講,分享有關智算中心的探索與實踐。

算力是集信息計算力、網絡運載力、數據存儲力於一體的新型生產力,主要通過算力中心等算力基礎設施向社會提供服務。10月8日,工業和信息化部、中央網信辦、教育部、國家衛生健康委、中國人民銀行、國務院國資委等6部門聯合印發《算力基礎設施高質量發展行動計劃》,提出到2025年算力規模超過300EFLOPS,智能算力占比達到35%,足見對智能計算中心發展的高度重視。

當前,新一輪科技革命和產業變革正在向縱深演進,算力基礎設施的重要性不斷提升。聚焦生成式AI與大模型浪潮帶來的算力機遇、挑戰與創新,7位行業嘉賓分別從智算中心技術瓶頸與優化方向、大模型工程實踐經驗、模塊化液冷解決方案、包含DPU的異構計算、GPU資源池化等方面,對智算中心如何進一步突破算力天花板、達成「雙碳」目標進行分享和解讀。

以下是此次論壇的核心乾貨:

一、商湯科技楊帆:AI基礎設施是核心戰略,三要素規模化可降低邊際成本

商湯科技聯合創始人、大裝置事業群總裁楊帆指出AI行業的場景碎片化問題,強調行業場景極度細分,導致邊際成本高,使得AI公司難以盈利。而解決之道是通過AI基礎設施,達到算力、數據、算法等核心要素協同的最佳實踐,提供給行業低成本、高效益的AI基礎能力。

商湯認為,未來5年,AI基礎設施可能會是行業的真正發展路徑,是解決AI目前創造巨大價值但行業自身不盈利的困局,最有可能的方向之一,因此商湯科技也將其作為核心戰略之一。

商湯科技聯合創始人、大裝置事業群總裁楊帆

隨著AI技術的進步,智算逐漸成為一個獨立的概念。

算力方面,商湯的臨港智算中心AIDC截至今年8月底,線上算力超過6000P,可以在單一的網絡訓練中聚集4000以上的GPU卡,可支持20個千億級別超大模型同時訓練。

數據方面,商湯認為數據要素是產業智能化發展中最寶貴的資源。商湯大模型數據專家團隊通過對世界上最大的公開爬取數據集之一Common Crawl中,3PB+的原始數據進行清洗、去重、有害信息消除、質量過濾等處理動作,生成約30TB的有效數據用於大模型訓練,可極大降低AI技術研發之中的成本。

算法方面,改進的方向主要集中於優化性能和優化推理過程,用更低成本的推理去達到同樣的效果。

把算力、數據、算法這三要素中基礎的核心沉澱出來,更加規模化地向外提供,降低邊際成本,擴大邊際效益,這是商湯科技認為AI產業發展的方向。

二、中國移動陳佳媛:定義NICC新型智算中心技術體系,從五個方面進行系統性重構

中國移動研究院網絡與IT技術研究所技術經理、主任研究員陳佳媛分享了中國移動的NICC(New Intelligent Computing Center)新型智算中心技術體系。

根據信通院發布的中國綜合算力指數預測,到2025年,智能算力在全國的占比將從今年的25.4%上升到85%。中國移動研究院將智算中心的發展分為兩個階段,一是2025年之前的集群時期,主要面向百億或者是千億規模的大模型發展;其次是2025年之後的超級池化時期,將面向萬億級的大模型進行革新。

基於這個預判,中國移動定義了新型智算中心的技術體系,並從互聯、算效、存儲、平台、節能等五個方面進行系統性重構,牽引行業在多個技術領域形成共識,加快相關技術成熟。

中國移動研究院網絡與IT技術研究所技術經理主任研究員陳佳媛

陳佳媛認為,在新互聯方面,為支撐更大規模的模型訓練,構建更大規模的卡間高速通信能力,產業應共同打造統一的計算總線協議,聯合AI晶片、交換晶片、伺服器等上下游企業共同推動國內高速互聯技術生態成熟;對於更大規模的網絡互聯,中國移動已經創新性提出全調度乙太網技術(GSE),革新乙太網底層轉發機制,實現三大核心機制轉變,打造無阻塞、高帶寬、低時延、自動化的新型智算中心網絡,希望更多夥伴加入,加速落地應用的過程。

在新存儲方面,為突破GPU顯存容量的限制,簡化AI模型開發,行業應共同加速內存池技術的成熟,使得CPU、GPU/AI加速卡等異構設備共享統一內存,為大模型海量數據的高效處理奠定基礎。

在新算效方面,陳佳媛談到,產業在聚焦GPU能力升級、探索存算一體等新型晶片的同時,更要關注CPU,GPU、DPU三大晶片協同,加快驗證DPU在智算中心的場景應用,整體提升智算中心海量數據的處理能力。

在新平台方面,中國移動原創提出算力原生技術,打造「芯合」算力原生跨架構平台,目標是打破「框架+工具鏈+硬體」緊耦合的智算生態,屏蔽底層硬體差異,實現智算應用的跨架構遷移部署,目前中國移動已經實現至少三家晶片的跨架構遷移,希望未來能有更多AI晶片加入,構建算力原生的產業生態。

在新節能方面,針對智算中心不斷攀升的能耗需求,產業標準化程度較低的問題,中國移動堅定推進液冷技術成熟,通過制定五大統一標準,在智算中心建設項目中大規模引入,實現極致能效、極高密度、極簡運維的三「極」目標。

大模型時代,新型智算中心的相關技術受到國內外高度關注,但是目前產業存在多種解決方案,技術路線也尚未統一,希望產業凝聚力量,形成共識,共同推動智算關鍵技術成熟,共同繁榮國內AI生態發展。

三、浪潮信息Stephen Zhang:應對AIGC時代算力挑戰,開放系統、多元算力是關鍵

AI算力是驅動大模型發展的核心引擎,但當前算力荒、算力貴的供給情況,恰恰成為了制約大模型發展的關鍵因素。浪潮信息開放加速計算產品總監Stephen Zhang從開放AI算力平台創新、促進多元算力融合發展、助推多元算力產業化應用等方面解讀了生成式AI時代下算力的挑戰與創新。

當前,多樣化的技術路線帶來了AI算力多元化的需求,但由於缺乏統一的業界規範,不同廠商的AI加速晶片存在顯著差異,需要定製化的系統硬體平台承載,帶來了更高的開發成本和更長的開發周期。同時,大模型訓練需要更高性能、高互聯、強擴展的大規模AI算力集群支撐。因此,在晶片技術創新突破的同時,產業界也需要從更高的系統層面共同應對大模型時代的算力挑戰。

浪潮信息開放加速計算產品總監Stephen Zhang

浪潮信息基於開放的算力系統研發和大模型工程實踐經驗,發布了《開放加速規範AI伺服器設計指南》,面向AIGC應用場景,細化完善了從節點到集群間的AI晶片應用部署全棧設計參考,並提供系統測試指導和性能評測調優方法。AI晶片廠商可以基於《指南》快速將符合開放加速規範的AI晶片落地成高可用高可靠高性能的大模型算力系統,提高系統適配和集群部署效率。

開放加速計算架構具有大算力、高互聯和強擴展的特點,天然適用於超大規模神經網絡並行訓練,近年來已經取得豐富的產業實踐成果。基於此,浪潮信息已經發布了三代AI伺服器產品,和10餘家晶片夥伴實現多元AI計算產品落地,並推出AIStation平台,可高效調度30餘款AI晶片,充分釋放多元算力價值。

同時,面向複雜的大模型訓練工程,浪潮信息最新推出了OGAI大模型智算軟體棧,能夠為大模型業務提供AI算力系統環境部署、算力調度及開發管理能力的完整軟體棧和工具鏈,高效釋放算力系統性能,加速生成式AI產業創新步伐。

四、科華數據魏芳偉:模塊化液冷一站式方案,助攻智算中心雙碳目標

晶片的功耗在持續上升,單顆晶片功耗的逐漸增大。英特爾2023年第一季度發布的Max9462處理器,TDP達350W;英偉達2023年第一季度發布的HGX Grace Hopper Superchip Platform,其TDP高達1000W。如用風冷技術,將很難降低CPU、GPU表面溫度。此外基於雙碳要求,工信部於2021年發布新型數據中心發展行動計劃,要求到2023年底,新建大型及以上數據中心PUE值降低到1.3以下,嚴寒和寒冷地區力爭降低到1.25以下

科華數據智慧溫控制拓展部副總監魏芳偉談道,目前主要的散熱方式有6種,包括傳統風冷、自然冷源風冷、冷板式液冷、噴淋式液冷、單相浸沒式液冷以及兩相浸沒式液冷。其中,使用最多的是冷板式液冷和單相浸沒式液冷。魏芳偉說,冷板式液冷適合絕大多數客戶使用,優勢是高性價比,低改造、低建設難度;浸沒相變式液冷適合極致性能客戶使用,特點是高性能、高投資。

科華數據智慧溫控制拓展部副總監魏芳偉

魏芳偉解讀了科華的模塊化液冷一站式解決方案,主要包括三大類產品,包括主要應用在大型網際網路IDC和超算中心的液冷微模塊應用在邊緣計算領域的液冷貨櫃,以及應用在挖潛和老舊機房改造的是液冷一體機

液冷微模塊的特點是高度集成,集成電源、配電、風冷空調、液冷CDU、二次側管道等。每一個液冷項目具備特殊性,但是可以採用模組形式搭建多樣化的適配載體,提高通用性。

液冷貨櫃由各個模塊組成,IT模塊、電力模塊、電池模塊、消防模塊、綜合布線、液冷模塊等可以根據單機櫃功率、總功率、配電架構和占地面積等因素綜合評估、選擇、確定各模塊配置數量,拼裝組成數據中心。

五、首都在線牛繼賓:解決智能算力平台建設痛點,已有幾十個大模型客戶成功案例

首都在線副總裁牛繼賓談道,構建新一代智能算力平台或是智算中心有很多痛點。一是英偉達高端算力供應鏈的問題,二是國產算力晶片的可用性問題,三是建成以後找不到足夠多的運行客戶。一個智算中心,如果解決不了以上幾個問題,就建造不起來或者出現運營虧損。此外大規模內網互聯、存儲高速吞吐、模型優化服務、平台生態服務等技術因素也造成智算平台建設的技術瓶頸。

首都在線提出的解決方案是建設大規模異構智能算力平台。該平台擁有異構算力的資源池,以英偉達算力為主,以國產算力為輔,實現上做了從內網互連到公網的調優,模型的適配調優,並基於此提供GPU裸金屬、GPU雲主機、高速存儲、資料庫等多方面的雲服務。經過一年半左右時間的疊代,首都在線打通了智算IaaS到智算MaaS,再到到客戶的端到端應用場景,提供一套從生產到業務的端到端模型適配與服務平台,目前的客戶包括國內數家TOP大模型客戶以及終端的應用客戶等。

首都在線副總裁牛繼賓

牛繼賓談道,大模型的推理如果用8卡的機器,是嚴重浪費的,首都在線最早和國內大模型客戶的在線推理業務合作,能夠將千億模型做到在兩張24G顯存、月成本只有千元左右的GPU雲主機進行部署,而一台8卡A100成本得四五萬元左右,相當於超過一個數量級的降低。「這樣才能讓最終的大模型應用走到每一個終端上。」

據他分享,首都在線目前已在搭建有商用級的千卡高端訓練集群,能夠直接響應大模型用戶訓練需求,同時建設了萬卡的推理集群,目前已有數十個大模型客戶案例、也有成功的將大模型服務轉售給垂直場景用戶的多個案例。國內依託於東輸西算的業務形態進行部署,加快用戶的響應,降低用戶的研發與線上服務成本;海外在東南亞正在部署H100集群,在美國也上線了比較大的推理資源池。這就相當於打通了全球的訓練、推理、網絡。

六、中科馭數張宇:AI大模型需要新型算力底座,包含DPU的異構計算成主流

DPU是數據專用處理器,被稱為繼CPU、GPU之後數據中心的「第三塊主力晶片」。DPU能夠提供智算中心所必須的大帶寬和低時延能力,使更多的CPU、GPU算力可以真正服務於業務,從而為新型智算中心提供更高效的算力底座,成為智算中心必備的核心組件。

中科馭數高級副總裁張宇強調了DPU和普惠算力在數智系統中的重要性。隨著大模型和智能計算的崛起,傳統的算力底座已不再滿足需求成為瓶頸,AI大模型應用需要新型算力底座進行支撐。硬體架構突破以CPU為中心的體系,應用維度從晶片內、節點內向系統級分布式異構延伸,CPU+GPU+DPU+FPGA的異構計算成為主流趨勢。在新的算力架構中,雲、邊、端共同構成了多層立體的泛在計算架構,通過與DPU的深度融合,構成新型算力底座。

中科馭數高級副總裁張宇

張宇談道,大帶寬、低時延,已成為AI大模型算力底座的核心訴求,而DPU可以提供這兩項必須的能力,異構算力、三U一體成為算力底座主流的趨勢。他認為對於所有的算力晶片而言,上層軟體生態是最重要的,有時甚至會超出晶片本身設計的重要性。

中科馭數踐行「IaaS on DPU」,從標準化的基礎設施到客制化的業務應用均進行產品布局,歷時五年打磨了開放DPU軟體開發平台HADOS,具備豐富的算力能力接口,接口數量超過2000個,具有完備的生態兼容能力、多種開發維護工具,支持豐富的應用場景。

七、趨動科技劉渝:在業界率先提出GPU資源池化,軟體定義優化AI算力供給

在AI大模型時代,英偉達的高端先進晶片難以採購,價格也是水漲船高。在巨大需求和AI算力供不應求情況下,趨動科技華南區技術總監劉渝認為應該優化GPU,也就是AI晶片和AI算力的供給模式

傳統的供給模式是物理卡掛載給AI應用使用,無論是基於物理機、容器或虛擬機,通過軟體對GPU做簡單的虛擬化切分,沒有辦法使算力資源動態滿足不同AI應用的彈性需求。AI開發、訓練、推理,這些不同的工作任務對於GPU資源的需求是不一樣的。

趨動科技華南區技術總監劉渝

軟體定義AI算力的解決方案,總體來說包含了六大典型應用場景:1、「隔空取物」,進行vGPU資源的遠程調用;2、「化零為整」,通過軟體進行GPU資源的聚合,節省算法人員的時間;3、「化整為零」,將GPU切分為多份,讓多個AI任務疊加使用,比如推理場景;4、「顯存擴展」,調用內存補顯存;5、「隨需應變」,通過軟體進行資源動態伸縮,無需重啟;6、「動態超賣」,資源高效輪轉使用。

劉渝稱,趨動科技在業界首提GPU資源池化的定義。趨動科技的OrionX GPU池化(GPU Pooling)軟體處在驅動程序以上,屬於標準化軟體;對於AI應用和框架來說,不需要修改任何代碼,就可以使用OrionX池化之後的GPU,對於用戶來說也不需要改變任何的使用習慣。OrionX對GPU資源進行池化後共享,每人按需動態進行GPU掛載和釋放,GPU硬體採購成本平均節省70%以上,GPU綜合利用率平均提升4倍以上

結語:算力結構變化催生新型智算中心

正如智一科技聯合創始人、CEO龔倫常作為主辦方在致辭中所言,在人工智慧進入新階段之後,全球對算力的需求與日俱增。隨著社會智能化、數字化快速演進,未來,每個大一點的企業都需要智算中心。

智一科技聯合創始人、CEO龔倫常

一方面,大模型時代下,傳統的算力中心面臨著與大模型匹配度較低、缺乏行業統一標準、豎井式發展、缺乏全局協同等多方面的挑戰。另一方面,國內企業已經發起衝鋒,從基礎設施、液冷技術、晶片協同等方面,重新定義新型智算中心,為構建更加健康、高效和可持續的AI生態系統鋪設了道路。

文章來源: https://twgreatdaily.com/zh-sg/ad3215e146fb3e66f5e954ec5383116b.html