大模型「暴力計算」時代,昇騰如何突圍算力之困? | WAIC2023

2023-07-11     光錐智能

原標題:大模型「暴力計算」時代,昇騰如何突圍算力之困? | WAIC2023

文|姚 悅

編|王一粟

「這兩年內,大模型帶來了750倍算力需求的增長,而硬體的算力供給(增長)僅有3倍。」華為昇騰計算業務總裁張迪煊在2023世界人工智慧大會上,揭開了被大模型「暴力計算」引發巨大算力缺口的真相。

而這個算力缺口還在進一步擴大當中,張迪煊預計,到2030年 AI 所需的算力,相對2020年還會增長500倍。

與此同時,由於眾所周知的原因,算力國產化也迫在眉睫。

針對如何補足算力短板,畢馬威中國數字化賦能主管合伙人張慶傑認為,需從三大途徑解決,分別是算力建設、基礎設施的共享與優化、算法的優化和數據的質量。這其中,算力建設被擺在首要位置。

華為在近年算力建設中頗為積極。據中信證券7月研報,國內現有城市智算中心中,以建設數量計,目前華為占據整體智算中心約79%的市場份額。

除了以量取勝,提升算力集群的能力更為重要。就在2023世界人工智慧大會上,華為宣布昇騰AI集群全面升級,集群規模從最初的4000卡集群擴展至16000卡,算力集群迎來「萬卡」時代。

華為輪值董事長鬍厚崑表示,昇騰AI的集群相當於把AI的算力中心當做一台超級計算機來進行設計,使得昇騰AI集群的性能效率達到10%以上的提升,而且系統穩定性得到十倍以上的提高。

張迪煊在群訪中亦對光錐智能透露,早在2018年,華為就判斷人工智慧會快速發展,並改變過去小模型的開發模式,形成大算力結合大數據生成大模型的模式,所以華為那時候就開始開發算力集群產品。

步入AI時代,已經無法再像單機系統時代那樣靠堆晶片拉升算力,而是要系統化重塑算力基建。在擴大巨量算力供給的同時,要解決算力利用率、使用門檻高等問題,最終還要實現算力生態化。

算力集群迎來「萬卡」時代

今年ChatGPT引爆算力需求後,硬體端最先火的是GPU,英偉達總市值年內已經上漲了66%,最新為1.05萬億美元。

以英偉達A100為主的GPU成了大模型必備的香餑餑,但僅靠堆卡也無法應對「百模大戰」的爆發之勢。那麼,如何把寶貴的算力資源,發揮到極致?

既然單個伺服器已經很難滿足計算需求,於是將多個伺服器連接成一台「超級計算機」,正在成為當下「算力基建」的主攻方向,這台「超級計算機」就是算力集群。

2019年,華為就發布了Atlas 900 AI訓練集群,當時由數千顆華為自研昇騰910(主要用於訓練)AI晶片構成,到今年6月已經支持到8000卡。而在剛剛結束的世界人工智慧大會上,華為更是宣布計劃今年年底或者明年年初,做到超過16000張卡的集群。

萬卡集群是什麼概念?

以1750億參數量的GPT-3模型訓練為例,使用8張V100顯卡,訓練時長預計要36年,512張V100顯卡,訓練時間接近7個月,而1024張A100的訓練時長可以減少到1個月。

按照華為的評估,訓練GPT-3模型,100B的數據量,在8000卡的Atlas 900 AI集群下需1天即可完成訓練,16000卡集群下僅需半天即可完成。

但別看「萬卡」算力大、效率高,真正想要用它去訓練模型,絕非易事。

正像中國工程院院士高文所說,「有人說全世界能在1000塊卡上同時選連一個模型的只有幾千人,能在4000塊卡上訓練的不超過100個人,在10000塊卡上訓練模型的人數更少了」,在千卡和萬卡上訓練和推理數據,對於軟體規劃、資源調度挑戰非常大。

首先,萬卡量級的訓練,對分布式並行訓練提出了更高的要求。分布式並行訓練是一種高效的機器學習方式,將大規模數據集分成多個部分,再在多個計算節點上並行訓練模型。這樣可以極大縮短訓練時間,提高模型準確性和可靠性。

昇騰算力集群的分布式並行訓練,就需要倚仗華為自研的昇思MindSpore AI框架。

昇思MindSpore支持多種模型類型,還開發了一套自動混合併行解決方案,實現數據並行和模型並行的混合併行訓練。

相同算力和網絡下,這樣的雙並行策略可實現更大的計算通信比,同時還解決了手動並行架構的現實困難,讓大模型開發和調優效率提升。

此外,由於分布式並行訓練,每訓練出一個結果,需要所有的晶片同步一次,這個過程中,會有出錯的機率。這種情況放在萬卡規模量級上,就對於穩定性提出更高要求。

「昇騰的可靠性和可用性的設計,可以做到30天長穩的訓練,對比業界的最先進3天左右水平,提升了將近10倍性能的穩定性、可用性優勢。」張迪煊表示。

算力集群的效率如何提升?

算力集群還不僅僅是規模擴大,效率也需要有很大提升,否則就會出現卡數越多,算力利用率反而下降的問題。

以華為在內蒙古烏蘭察布市部署的數千卡規模的AI集群為例,在同等算力下,計算效率能夠提升10%以上。

如果按照昇騰的指標,1000卡的算力約300P,千卡就能提升約30P,萬卡就能提升約300P。

「300P算力24小時可以處理數十億張圖像、數千萬人DNA、10年左右的自動駕駛數據。」一位從事雲計算業務的人士向光錐智能表示,提升算力效率,也就降低了計算成本。

如果說從千卡的300P到萬卡的3000P還得靠堆卡「大力出奇蹟」,那這10%的效率提升,背後就需要更為複雜的系統性升級。

除了整合華為的雲、計算、存儲、網絡、能源綜合優勢,昇騰算力集群還進行了架構創新。

一台伺服器就是一個節點,華為在計算節點層面創造性推出了對等平構架構,突破傳統了以CPU為中心的異構計算帶來的性能瓶頸,從而提升整個計算的帶寬、降低時延,節點性能得到30%的提升。

此外,算力可是用電超級大戶,尤其是上百台伺服器聯合起來,降低能耗也需要同步實現。

計算能力提升,伺服器能耗也越來越高,傳統風冷已經無法支撐高散熱,就亟需解決如何能在政策嚴格限制PUE(電力使用效率)的情況下,仍保證伺服器散熱能力的問題。

在幾種散熱路線中,液冷被認為是主流的解決方案之一。

液冷方案本就比傳統風冷方案更省電,昇騰採用了直接把冷夜注入每塊晶片的精準供給方式,相比浸沒式(流浪地球中放入海底的方案),可以降低日常運維的成本,也減少冷卻液泄露污染環境的風險。

「精準供給取決於晶片板卡上都設置傳感器、電控閥門,再加上中央控制,可以實現為不同晶片在不同的負荷下,提供精細化冷量輸送。」華為計算工作人員向光錐智能介紹。

2021年11月,發改委等部門發布的文件明確指出,新建大型、超大型數據中心PUE低於1.3,而內蒙古、貴州、甘肅、寧夏節點的數據中心的PUE更是要控制在1.2以下。昇騰的算力集群已經實現低於1.15的PUE。

降低算力門檻,要靠生態

「電力是即插即用的,基本上不需要教老百姓怎麼用。而算力,即便你提供給企業,很多人是不會用的。」中國工程院院士、中國網際網路協會諮詢委員會主任鄔賀銓表示,現在算力(使用)門檻太高。

一位業內人士也向光錐智能表示:「中小企業很難得到訓練伺服器的技術支持,加上國產軟體生態缺失,中小企業也很難自己玩轉。」

即便算力集群怎麼強大,需求端打不開,也終將會制約整個算力發展。而AI算力能否達到像電力一樣的「低門檻」使用標準,生態尤為重要。

這也是為什麼英偉達當年遭受華爾街的「白眼」,也要不計成本投入CUDA軟體系統的原因。正是CUDA,實現讓一個普通學生就可以進行顯卡編程,英偉達進而利用軟硬體協同,打造生態系統,最大程度擴大了算力供應。

除了英偉達,蘋果在實現良好的用戶體驗方面,更早印證了生態系統的重要性。

當前,華為昇騰已經搭建了一套自主創新的軟硬體全棧系統,包括昇騰AI集群系列硬體、異構計算架構CANN、全場景AI框架昇思MindSpore、昇騰應用使能MindX以及一站式開發平台ModelArts等。CANN正是對標英偉達的CUDA + CuDNN的核心軟體層。

張迪煊表示,「昇騰AI支持了中國近一半原創大模型的原生創新,也是目前國內唯一完成千億參數大模型開發並商用的技術路線,各開源的Transformer類大模型實測訓練性能,可以達到業界的1.2倍。」

這些背後,則是華為將上述的軟體開源、硬體開放。

首先,在基礎軟體上,昇騰圍繞大模型開發、訓練、微調、推理等全流程,進行了一系列的開源和支持。

除了已將AI框架昇思MindSpore開源,昇騰還提供了大模型的開發套件,可以支持十幾行代碼的全流程腳本開發。用張迪煊的話講,就是「為了讓大模型開發做到開箱即用」。

微調是大模型具備行業屬性的關鍵環節,對應用效果起決定性作用。對此,華為昇騰提供了低參微調模塊,集成了多種微調算法。張迪煊介紹,包括 LoRA、P-Tuning 等僅需 5%的微調參數,可實現全參微調的效果。

此外,針對大模型推理部署難、成本高等一系列的問題,華為昇騰在開發工具鏈 MindStudio 上集成了自動剪枝、蒸餾、量化工具,「精度損失0.5%的基礎上,做到了20倍的模型壓縮」張迪煊介紹,推理階段支持在線分布推理,能夠使應用快速上線,推理時延小於50毫秒。

「張迪煊介紹,推理階段支持在線分布推理,能夠使應用快速上線,推理時延小於50毫秒。

硬體方面,華為也對外提供主板、SSD、網卡、RAID卡、Atlas模組和板卡,來支持合作對象的AI硬體產品開發。

基於當前算力供應緊缺的情況,華為昇騰也重點針對「運算元和模型」,提出了的遷移、適配的方案。

訓推一體化行業落地最後一公里

在初步搭建算力生態後,能否持續良性運轉,最終還要回歸到大模型商業化的問題上。

「不作詩,只做事」,華為剛剛發布的大模型盤古3.0,與其他國內大模型一樣,落地的重點都放在了「行業」身上。而且盤古大模型已經在天氣預測、藥物研發和選煤等諸多行業、超過1000個項目中「上崗」。

不過,對於國產大模型整體來說,在深度滿足行業需求上,還面臨一些問題。

「企業的需求非常具體,比如『在這堆垃圾里,識別出有價值的金屬』,這經過訓練的小學生就可以做到,而對於大模型,企業的這種需求就太重了,而且可能最終的效果也不是很好。」企業服務商用友的一位工作人員向光錐智能表示,直接調用通用AI能力,無法滿足行業中廣泛存在的差異化智能需求。

華為把大模型分成三個層級,L0、L1、L2。L0就是基礎通用模型,在基礎模型L0的基礎上,加上行業數據,混合訓練得到的行業大模型是L1,然後再把L1針對具體下游千行百業的細分場景進行一些部署,得到細分場景的任務模型L2。

現在,無論是對於華為還是其他大模型企業,如何從行業大模型L1中快速生產L2模型,還有部署L2模型到端側、邊側和雲側,成為打通行業應用最後一公里的問題。

針對這最後一公里,昇騰聯合科大訊飛、智譜AI、雲從等上游的大模型合作對象,提出了「訓推一體化」方案。

簡單理解,做模型訓練就相當於大學學習階段,推理部署(訓練好的模型在特定環境中運行)就是正式上崗,訓推一體化就是「邊學習邊實習」。

通用大模型一般都是基於廣泛的公開文獻與網絡信息來訓練,信息混雜,許多專業知識與行業數據積累不足,會導致模型的行業針對性與精準度不夠,數據「噪音」過大。同時,又由於行業數據獲取難,技術與行業結合難,大模型在行業的落地進展較慢。

訓推一體化,支持中心節點將模型下發至企業的邊緣節點進行推理,邊緣站點再將數據回傳至中心,進行算法更新和增量訓練,實現自主演進能力。也就是,「學生主動向更適應就業崗位的方向深造」。

這樣一來,就保證訓練到推理的循環生產流程不再割裂。並且把發展行業大模型更大的主動權,交到了行業和企業自身,無疑能最大化滿足行業的AI應用與開發場景,實現AI基礎設施與行業需求深度融合。

相較於中心訓練、邊緣推理,訓推一體化對於中小企業來說,部署成本也會更低,更會加速中小企業加入行業、場景大模型的「培養」。

對於整個算力生態來說,儘快打通這最後一公里,也就意味著被真正激活,才會有可持續的發展。

文章來源: https://twgreatdaily.com/a21f268e8d170773d14e6a38267262d3.html